多元统计分析报告我国主要城市地聚类分析报告课程设计.doc
-
资源ID:16200
资源大小:399.54KB
全文页数:18页
- 资源格式: DOC
下载积分:10金币
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
多元统计分析报告我国主要城市地聚类分析报告课程设计.doc
摘 要以我国31个主要城市为研究样本,选取平均气温、平均相对湿度、降水量、日照时数、4个反映生态气候情况的主要指标,对我国主要城市气候进展聚类分析。使用spss将全国主要城市的平均气温、平均相对湿度、降水量、日照时数,利用K均值聚类分析法和系统聚类分析法进展分类,并且讨论K均值聚类分析法和系统聚类分析法的异同与哪种方法更好。关键词:平均气温;平均相对湿度;降水量;日照时数;系统聚类;聚类分析;spss目录1. 设计目的42. 聚类分析的根本思想53. 实际问题分析54. 系统聚类分析64.1 实际操作64.2 结果分析65. K均值聚类分析115.1. 根本思想115.2. 操作步骤115.3. 结果分析126两种方法的结果比拟167. 总结18参考文献19我国主要城市气候的聚类分析1.设计目的了解系统聚类分析法,学会应用spss软件进展系统聚类分析。同时更好的了解应用多元统计分析的知识,熟练掌握应用多元统计分析在实际问题上的应用,并将所学的知识结合spss对数据的处理解决实际问题。本设计是利用spss软件我国31个城市的气候进展聚类分析。我国主要城市的气候利用K均值聚类分析法和系统聚类分析法进展分类,并且讨论K均值聚类分析法和系统聚类分析法的异同与哪种方法更好。2.聚类分析的根本思想找出能够度量样品或指标之间相似程度的统计量以此作为划分类型的依据,把一些相似程度较大的聚合为一类另一些相似程度较大的聚合为一类,直到所有都聚合完毕形成一个由小到大的分类系统 3.实际问题分析下表是某年我国31个主要城市平均气温、平均相对湿度、降水量、日照时数的数据,试使用系统聚类法对这些地区进展聚类分析。城市平均气温平均相对湿度降水量日照时数54.0 某某60.8 某某58.8 某某55.2 呼和浩特46.9 某某67.7 某某57.6 某某58.1 某某68.8 某某70.3 某某71.3 某某78.3 某某68.3 某某67.7 某某61.3 某某59.2 某某66.8 1269 某某69.6 某某70.8 某某75.5 某某80.0 某某81.1 某某76.7 某某75.1 某某71.8 某某某某33.8 某某53.3 某某57.1 某某52.3 乌鲁木齐56.0 4. 系统聚类分析4.1 实际操作1在spss将数据导入数据视图;2点击spss选择 分析、分类、系统聚类;选中系统聚类分析主页面,将城市选入标注个案,将变量平均气温至日照时数移入变量框中。单击定义组因为本案例是对样本进展聚类,所以在分群中勾选个案,在输出选项组中勾选统计量复选框和图复选框。3点击绘制按钮,选中树状图和冰柱栏中的无,点击继续按钮;4 点击保存按钮,在聚类成员框中选中方案X围按钮,最小聚类数设为2,最大聚类书设为5,继续;5统计量和方法都选择系统默认值;6点击确认按,运行系统聚类过程。4.2结果分析(1) 案例处理汇总表案例处理汇总a,b案例有效缺失总计N百分比N百分比N百分比310.031a. 平方 Euclidean 距离 已使用 b. 平均联结组之间案例处理汇总表中汇总了有效数据数量31个,占百分比百分之百,缺失数据0个,占百分之零。总计数量31个,占百分比百分之百。(2) 聚类过程的结果聚类表阶群集组合首次出现阶群集群集 1群集 2系数群集 1群集 2下一阶117002321025002432728008424260012511130010614210018729310019827303014948001910112050201121500151222240417139170021145270822152611025163160025172223120291814196026194299722201118100262191213024224519142323141222824910212272523151628此表是对每一阶段聚类结果的反映,第四列表示聚合系数,第二列第三列表示聚合的类,例如,第一个阶段是把相似程度较大的第一个样品和第七个样品聚为一类,此时有30类,第二个阶段是把相似程度较大的第十个样品和第二十五个样品聚为一类,此时有29类,以此类推。此图为根据聚类表所制出的折线图3聚类成员表群集成员案例 5群集4群集3群集2群集1: 11112:某某22113:某某22114:某某11115:呼和浩特11116:某某22117:某某11118:某某11119:某某332210:某某332211:某某432212:某某332213:某某432214:某某432215:某某221116:某某221117:某某332218:某某432219:某某432220:某某432221:某某4322该表每个案例分别在分为五类、四类、三类、二类时所在的类别数,由表可知因为最小聚类数为2,最大聚类数为5 ,类别数分别为2, 3,4,5时样本的类别归属情况。可以结合后面的树状图、冰柱图与研究目的,确定具体的较为合理的类别数与成员归属。4冰柱图冰柱图也是反映样品聚类情况的图,比如我们希望分为3类,那么最左边的类数应选4,每个样品右边都有一列冰柱,如果某个样品右边的列冰柱长度小于三,那么他和前面冰柱长度大于三的样品聚为一类,如此下去直到找到全部三类为止,例如,案例二十二右边的列冰柱长度为2,那么它就与案例二十三和案例二十八为一类了,第九个案例右边的列冰柱长度为1,那么从案例十九到九为一类,其余为一类。由此,将此题分为了三类5树状聚类图* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * * Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster bine C A S E 0 5 10 15 20 25 Label Num +-+-+-+-+-+ 1 -+-+ 某某 7 -+ | 某某 27 -+ +-+ 某某 28 -+ | | 某某 30 -+ | | 呼和浩特 5 -+-+ | 某某 29 -+ | 乌鲁木齐 31 -+ +-+ 某某 4 -+ | | 某某 8 -+ | | 某某 2 -+ | | 某某 15 -+-+ | | 某某 6 -+ +-+ | 某某 3 -+-+ | 某某 16 -+ | 某某 24 -+ | 某某 26 -+ | 某某 22 -+-+ | 某某 23 -+ | | 某某 10 -+-+ | | 某某 25 -+ +-+ +-+ 某某 9 -+ | | |由上表可以由分类个数得到分类情况,如果我们选择分类数为5,就从距离大概为4的地方往下切,把地区分为5类,得到分类结果如下:第一类:、某某、呼和浩特、某某、某某、某某、某某、某某、某某、乌鲁木齐第二类:某某、某某、某某、某某、某某第三类:某某、某某、某某、某某、某某第四类:某某、某某、某某、某某、某某、某某、某某、某某第五类:某某、某某、某某、某某如果我们选择分类数为4,就从距离大概为5的地方往下切,把地区分为4类,得到分类结果如下:第一类:、某某、呼和浩特、某某、某某、某某、某某、某某、某某、乌鲁木齐第二类:某某、某某、某某、某某、某某第三类:某某、某某、某某、某某、某某、某某、某某、某某、某某、某某、某某、第四类:某某、某某、某某、某某如果我们选择分类数为3,就从距离大概为6的地方往下切,把地区分为3类,得到分类结果如下:第一类:某某、某某、某某、某某、乌鲁木齐、某某、呼和浩特、某某、某某、某某、某某、某某、某某、某某第二类:某某、某某、某某、某某、某某、某某、某某、某某、某某、某某、某某、某某第三类:某某、某某、某某、某某如果我们选择分类数为2,就从距离大概为20的地方往下切,把地区分为2类,得到分类结果如下:第一类:某某、某某、某某、某某、乌鲁木齐、某某、呼和浩特、某某、某某、某某、某某、某某、某某、某某第二类:某某、某某、某某、某某、某某、某某、某某、某某、某某、某某、某某、某某、某某、某某、某某、某某5.K均值聚类分析. 根本思想把样品粗略分成K个初始类,进展修改,逐个分派样品到其最近均值得类中。重新计算承受新样品的类和失去样品的类的均值,重复,直到各类无元素进出。. 操作步骤1在菜单中依次单击分析,分类,K-均值聚类,打开K-均值聚类对话框。将城市选入个案标记依据,将平均气温、平均相对湿度、降水量和日照时数选入变量,聚类数,本例中设为4,方法选项组中采用默认的迭代与分类选项。2输出结果设置:单击保存按钮,打开K-Means群集:保存新变量对话框,勾选聚类成员和与聚类中心的距离复选框,单击继续。3选择统计量指标:单击选项按钮,打开K均值聚类分析:选项对话框,勾选初始聚类中心、ANOVA表和每个个案的聚类信息,输出方差分析表和相应的个案信息。缺失值处理方式使用系统默认选项。4单击确定按钮,执行操作,输出结果。5.3. 结果分析1初始类中心初始聚类中心聚类1234平均气温平均相对湿度降水量日照时数上表为初始聚类中心表,从上表中可以看出聚类数为4,所以表中给出了4个初始类中心点。因为是初始聚类中心,在后面的迭代过程中类中心会发生调整。(2) 迭代历史记录下表为迭代历史记录表,显示了聚类分析所经历的迭代过程,从中可以看出,聚类分析过程经历了3次迭代,前两次的变化较大,最后一次聚类中心内的更改没有变化,所以表示迭代完成。初始中心间的最小距离为821.337。迭代历史记录a迭代聚类中心内的更改123412.0003.000.000.000.000a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 3。初始中心间的最小距离为 821.337。(3)聚类成员聚类成员案例号城市聚类距离112某某 13某某 34某某 15呼和浩特16某某 17某某 18某某 19某某 410某某 311某某 412某某 313某某 414某某 415某某 316某某 317某某 418某某 219某某 420某某 4上表为聚类成员表,第三列为该地区所在的类别数,第四列为该案例距离类中心的距离。把地区分为4类时,第一类:、某某、某某、呼和浩特、某某、某某、某某、某某、某某、某某、某某、乌鲁木齐第二类:某某、某某、某某、某某、某某第三类:某某、某某、某某、某某第四类:某某、某某、某某、某某、某某我们可以对分类结果做分析,第一类的城市地处我国北部;其降雨量湿度与日照时数较低,气候多为干冷,第二类的城市地处我国西南部,第三类的城市地处我国东南部,第四类的城市地处我国最南,我国主要城市气候可根据地区的生态环境进展分类。(4)最终聚类中心最终聚类中心聚类1234平均气温平均相对湿度降水量日照时数该表为最终聚类中心表,由此表,再比照上面得出的初始聚类中心表就可以看出最终聚类中心和初始聚类中心相比发生了很大的变化。说明聚类过程中初始类中心坐标进展了调整。(5)最终聚类中心间的距离最终聚类中心间的距离聚类12341234该表为最终聚类中心间的距离表。例如第1类和第2,第2类和第3类中心点坐标之间的距离为919.955。以此类推。(6)方差分析表ANOVA聚类误差均方df均方dfFSig.平均气温327.000平均相对湿度327.000降水量327.000日照时数327.000F 检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差异。观测到的显著性水平并未据此进展更正,因此无法将其解释为是对聚类均值相等这一假设的检验。该表是方差分析表,F值只能作为描述使用,不能根据该值判断各类均值是否有显著性差异,从方差分析表可以看出有三个变量:平均气温,平均相对湿度,降水量,对分类现象显著。(7)每个聚类中的案例数目每个聚类中的案例数聚类1234有效缺失.000每个聚类中的案例数表,由表便可看出,类别1中的案例数为12个,类别2中的案例数为5个,类别3中的案例数为6个,类别4中的案例数为8个。有效个案数为31个。8QCL1为分类归属情况,QCL2为样本到类中心的距离。城市QCL1QCL2112某某13某某34某某15呼和浩特16某某17某某18某某19某某410某某311某某412某某313某某414某某415某某316某某317某某418某某219某某420某某421某某422某某223某某224某某225某某326某某227某某128某某129某某130某某131乌鲁木齐1由表可知,相对于系统矩阵,K均值矩阵把地区分为5类时,第一类:、某某、某某、呼和浩特、某某、某某、某某、某某、某某、某某、某某、乌鲁木齐第二类:某某、某某、某某、某某、某某第三类:某某、某某、某某、某某第四类:某某、某某、某某、某某、某某6两种方法的结果比拟我又分别做了K=3和K=5时的K均值聚类分析与系统聚类分析的3类、4类、5类相比拟,结果如下表:(1) 把地区分为5类时,两种方法比拟如下表所示系统聚类K均值聚类第一类、某某、呼和浩特、某某、某某、某某、某某、某某、某某、乌鲁木齐某某、某某、某某、某某、某某第二类某某、某某、某某、某某、某某某某、某某、某某、某某、某某第三类某某、某某、某某、某某、某某某某、某某、某某、某某、某某第四类某某、某某、某某、某某、某某、某某、某某、某某某某、某某、某某、某某、某某、某某第五类某某、某某、某某、某某、某某、呼和浩特、某某、某某、某某、某某、某某、某某、乌鲁木齐2把地区分为4类时,两种方法比拟如下表所示:系统聚类K均值聚类第一类、某某、呼和浩特、某某、某某、某某、某某、某某、某某、乌鲁木齐、某某、某某、呼和浩特、某某、某某、某某、某某、某某、某某、某某、乌鲁木齐第二类某某、某某、某某、某某、某某某某、某某、某某、某某、某某第三类某某、某某、某某、某某、某某、某某、某某、某某、某某、某某、某某、某某、某某、某某、某某、某某第四类某某、某某、某某、某某、某某某某、某某、某某、某某、某某3把地区分为3类时,两种方法比拟如下表所示系统聚类K均值聚类第一类某某、某某、某某、某某、乌鲁木齐、某某、呼和浩特、某某、某某、某某、某某、某某、某某、某某、某某、某某、某某、呼和浩特、某某、某某、某某、某某、某某、某某、某某、乌鲁木齐、某某、某某第二类某某、某某、某某、某某、某某、某某、某某、某某、某某、某某、某某、某某某某、某某、某某、某某、某某第三类某某、某某、某某、某某某某、某某、某某、某某、某某、某某、某某、某某、某某、某某、某某1上图分别比拟了k=3,4,5,将系统分为三类四类五类时K均值聚类法与系统聚类法的比拟,可以看出,在K=3时,K均值聚类分析与系统聚类分析的结果差异最小,K均值聚类将样品聚类,而系统聚类将指标聚类。系统聚类过程较麻烦,此案例这种比系统聚类法大得多的数据组用K均值法更简单明了,但是在对案例进展分析时,选择几种算法进展反复检验,对于结果的分析是有好处的。当K均值聚类成五类时各类之间差异较小,无较大意义,强行把这些数据分成K个类会导致无意义的聚类。2K均值的优点:操作简便,K均值法得到的结果比拟简单易懂。 K均值的缺点:K均值法只能产生指定类数结果。 系统聚类的优点:系统聚类可以对不同的类数产生一系列的聚类结果。 系统聚类的缺点:系统聚类法需要计算出不同样品或变量的距离,还要在 聚类的每一步都要与时“类间距离,计算量比拟大。7.总结上面我已经分别用了系统聚类法和K均值法对我国主要城市气候进展了分类,结果也都已经展示在了上面。可以看出系统聚类法要计算出不同样品或变量的距离,计算量较大,较麻烦,而K均值法得到的结果比拟明了简洁。系统聚类对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数结果。通过比照两种方法,我们可以发现比照两种算法更利于结果分析,找到更合理的分类。所以,在对案例进展分析时,选择几种算法进展反复检验,对于结果的分析是有好处的。 K均值法与系统聚类法一样之处都是以距离的远近进展聚类。K均值法与系统聚类法的不同之处是系统聚类是对不同的类数产生一系列的聚类结果,而K均值法只能产生指定类数结果。需要计算出不同样品或变量的距离,还要在聚类的每一步都要与时“类间距离,计算量比拟大。而K均值法得到的结果比拟简单易懂。通过这次课设,利用spss软件,我学会了系统聚类和K均值聚类的根本思想和步骤方法,了解到了K均值法和系统聚类法的区别以与优缺点,对聚类分析有了深刻的认识。参考文献1.