统计学聚类分析.ppt
《统计学聚类分析.ppt》由会员分享,可在线阅读,更多相关《统计学聚类分析.ppt(32页珍藏版)》请在课桌文档上搜索。
1、章聚类分析,分类,物以类聚、人以群分;但根据什么分类呢?如要想把中国的县分类,就有多种方法可以按照自然条件来分,比如考虑降水、土地、日照、湿度等,也可考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。,聚类分析,对一个数据,既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。当然,不一定事先假定有多少类,完全可以按照数据本身的规律来分类。本章要介绍的分类的方法称为聚类分析(cluster analysis)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。它们在数学上是无区别
2、的。,饮料数据(drink.txt),16种饮料的热量、咖啡因、钠及价格四种变量,11.1如何度量距离远近?,如果想要对100个学生进行分类,而仅知道他们的数学成绩,则只好按照数学成绩分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的100个点,也可以按照距离远近来分类。,11.1如何度量距离远近?,三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。在饮料数据中,每种饮料都有四个变量值。这就是四维空间点的问题了。,两个距离概念,按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离,一个是
3、类和类之间的距离。点间距离有很多定义方式。最简单的是歐氏距离。当然还有一些和距离相反但起同样作用的概念,比如相似性等,两点越相似度越大,就相当于距离越短。,两个距离概念,由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么点间的距离就是类间距离。但是如果某一类包含不止一个点,那么就要确定类间距离,类间距离是基于点间距离定义的:比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离或各类的中心之间的距离来作为类间距离。,两个距离概念,在计算时,各种点间距离和类间距离的选择是通过统计软件的选项实现的。不同的选择的结果会不同,但一般不会差太多。,向量x=(x1,
4、xp)与y=(y1,yp)之间的距离或相似系数:,欧氏距离:Euclidean,平方欧氏距离:Squared Euclidean,夹角余弦(相似系数1):cosine,Pearson correlation(相似系数2):,Chebychev:Maxi|xi-yi|,Block(绝对距离):Si|xi-yi|,Minkowski:,当变量的测量值相差悬殊时,要先进行标准化.如R为极差,s 为标准差,则标准化的数据为每个观测值减去均值后再除以R或s.当观测值大于0时,有人采用Lance和Williams的距离,类Gp与类Gq之间的距离Dpq(d(xi,xj)表示点xi Gp和xj Gq之间的距离
5、),最短距离法:,最长距离法:,重心法:,离差平方和:(Wald),类平均法:,(中间距离,可变平均法,可变法等可参考各书).在用欧氏距离时,有统一的递推公式,最短距离(Nearest Neighbor),最长距离(Furthest Neighbor),组间平均连接(Between-group Linkage),组内平均连接法(Within-group Linkage),重心法(Centroid clustering):均值点的距离,离差平方和法连接,2,4,1,5,6,5,红绿(2,4,6,5)8.75 离差平方和增加8.752.56.25 黄绿(6,5,1,5)14.75离差平方和增加14
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 聚类分析
链接地址:https://www.desk33.com/p-259905.html