数学建模聚类分析.ppt
《数学建模聚类分析.ppt》由会员分享,可在线阅读,更多相关《数学建模聚类分析.ppt(44页珍藏版)》请在课桌文档上搜索。
1、聚类分析,分类,物以类聚、人以群分;但根据什么分类呢?如要想把中国的县分类,就有多种方法可以按照自然条件来分,比如考虑降水、土地、日照、湿度等,也可考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。,研究对样品或指标进行分类的一种多元统计方法,是依据研究对象的个体的特征进行分类的方法。聚类分析把分类对象按一定规则分成若干类,这些类非事先给定的,而是根据数据特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中趋向于不相似。,聚类分析的基本思想是认为我们所研究的样本或指标(变量)之间存在着程度不同的相似性(亲疏关系)。,根据事物本身
2、的特性研究个体分类的方法,原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。不一定事先假定有多少类,完全可以按照数据本身的规律来分类。按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离,一个是类和类之间的距离。,二、距离和相似系数,在进行聚类分析时,样本间的相似系数和距离有多种不同的定义,通常按特性来划分。变量特征的测度尺度有三种类型:间隔尺度(由连续的实值变量表示)有序尺度(没有明确的数量表示,只有次序关系,如产品等级)名义尺度(具有某种特性,如性别),从一组复杂数据产生一个相当简单的类结构,必然要求进行“相关性”或“相似性”的度量。在相似性度量的选择中,常常包含许多主观上
3、的考虑,但最重要的考虑是指标的性质或观测的尺度(名义、次序、间隔)以及相关知识。课堂上主要讨论的指标测量为间隔尺度的情况。,距离,每个样本有p个指标,因此每个样本可以看成p维空间中的一个点,n个样本就组成p维空间中的n个点,这时很自然想到用距离来度量n个样本间的接近程度。用 表示第i个样本与第j个样本之间的距离。一切距离应满足以下条件:,常见的距离有:,block distance 绝对值距离:euclidean distance 欧式距离squared euclidean distance 平方欧式距离chebychev distance 切比雪夫距离minkowski distance 明
4、考斯基距离(明氏距离)当q=1,2时,为绝对值、欧式距离;若趋近无穷时,则为切比雪夫距离,Lanberra 兰氏距离Mahalanobis 马氏距离以上都是样本间距离的定义。,相似系数,夹角余弦相关系数变量间的距离利用相似系数来定义距离利用样本协差阵来定义距离把变量Xi的n次观测值看成n维空间的点,在n维空间中定义m个变量间的距离。,夹角余弦 两变量的夹角余弦定义为:,相关系数 两变量的相关系数定义为:,把样本看成n维空间的点,而把变量看成n维空间的坐标轴,m个样本开始时自成一类,然后规定各类之间的距离,将距离最小的一对并成一类,然后再计算距离,直到所有单位全部合并为止。,系统聚类法,根据一批
5、样本的多个观测指标,具体找出一些彼此之间相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样本(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有样本(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后把整个分类系统画成一张谱系图,用它把所有样本(或指标)间的亲疏关系表示出来。这种方法是最常用的、最基本的一种,称为系统聚类分析。,系统聚类法基本步骤,1.选择样本间距离的定义及类间距离的定义;2.计算n个样本两两之间的距离,得到距离矩阵 3.构造个类,每类只含有一个样本;4.合并符合类间距离定义
6、要求的两类为一个新类;5.计算新类与当前各类的距离。若类的个数为1,则转到步骤6,否则回到步骤4;6.画出聚类图;7.决定类的个数和类。,系统聚类分析的方法,系统聚类法的聚类原则决定于样品间的距离以及类间距离的定义,类间距离的不同定义就产生了不同的系统聚类分析方法。以下用dij表示样品X(i)和X(j)之间的距离,当样品间的亲疏关系采用相似系数Cij时,令;以下用D(p,q)表示类Gp和Gq之间的距离。,1.最短距离法(SINgle method),2.最长距离法(COMplete method),最长距离,最短距离,A,B,C,D,E,F,3.重心法(CENtroid method),4.类
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学 建模 聚类分析

链接地址:https://www.desk33.com/p-229700.html