第11章主成分分析.ppt.ppt
《第11章主成分分析.ppt.ppt》由会员分享,可在线阅读,更多相关《第11章主成分分析.ppt.ppt(58页珍藏版)》请在课桌文档上搜索。
1、第11章(1)主成分分析,汇报什么?,假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。如果让你向上面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?当然不能。你必须要把各个方面作出高度概括,用一两个指标简单明了地把情况说清楚。,每个人都会遇到有很多变量的数据。比如全国或各个地区的带有许多经济和社会变量的数据;各个学校的研究、教学等各种变量的数据等等。这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对
2、它们进行描述。把变量维数降低以便于描述、理解和分析的方法:主成分分析(principal component analysis)和因子分析(factor analysis)。实际上主成分分析可以说是因子分析的一个特例。本章介绍主成分分析法。,11.1 什么是主成分分析?,我们来看一个例子:小学各科成绩的评估可以用下面的综合成绩来体现:a1語文a2数学a3自然a4社会科学 确定权重系数的过程就可以看作是主成分分析的过程,得到的加权成绩总和就相对于新的综合变量主成分,推而广之,当某一问题需要同时考虑好几个因素时,我们并不对这些因素个别处理而是将它们综合起来处理,这就是PCA。这样综合处理的原则是使
3、新的综合变量能够解释大部分原始数据方差。,由于各种量测到数据通常是以矩阵的形式记录、表达和存储的,实际中的很多数据信息往往是重叠与冗余的。从线性代数的观点来看,就是这些数据矩阵中存在相关的行或列。因此需要对其进行处理和提炼,抽取出有意义、独立的变量。主成分分析(Principal Component Analysis,简称PCA)是一种常用的基于变量协方差矩阵对信息进行处理、压缩和抽提的有效方法。,为什么要根据方差确定主成分?,情形II下总分的方差为0,显然不能反映三个学生各科成绩各有所长的实际情形,而红色标记的变量对应的方差最大,可反映原始数据的大部分信息,对主成分的要求,上例可见,用总分有
4、时可以反映原分数表的情况,保留原有信息,有时则把信息丢尽,不能反映原理的情况和差异。根据总分所对应的方差可以确定其代表了多大比例的原始数据(分数)信息。一般来说,我们希望能用一个或少数几个综合指标(分数)来代替原来分数表做统计分析,而且希望新的综合指标能够尽可能地保留原有信息,并具有最大的方差。,主成分分析的目的,压缩变量个数,用较少的变量去解释原始数据中的大部分变量,剔除冗余信息。即将许多相关性很高的变量转化成个数较少、能解释大部分原始数据方差且彼此互相独立的几个新变量,也就是所谓的主成分。这样就可以消除原始变量间存在的共线性,克服由此造成的运算不稳定、矩阵病态等问题。,对这两个相关变量所携
5、带的信息(在统计上信息往往是指数据的变异)进行浓缩处理假定只有两个变量x1和x2,从散点图可见两个变量存在相关关系,这意味着两个变量提供的信息有重叠,11.2主成分分析的基本思想(以两个变量为例),如果把两个变量用一个变量来表示,同时这一个新的变量又尽可能包含原来的两个变量的信息,这就是降维的过程,椭圆中有一个长轴和一个短轴,称为主轴。在长轴方向,数据的变化明显较大,而短轴方向变化则较小如果沿着长轴方向设定一个新的坐标系,则新产生的两个变量和原始变量间存在一定的数学换算关系,同时这两个新变量之间彼此不相关,而且长轴变量携带了大部分的数据变化信息,而,短轴变量只携带了一小部分变化的信息(变异)此
6、时,只需要用长轴方向的变量就可以代表原来两个变量的信息。这样也就把原来的两个变量降维成了一个变量。长短轴相差越大,降维也就越合理(见图示),主成分分析的几何解释,平移、旋转坐标轴,主成分分析的几何解释,平移、旋转坐标轴,主成分分析的几何解释,平移、旋转坐标轴,多维变量的情形类似,只不过是一个高维椭球,无法直观地观察每个变量都有一个坐标轴,所以有几个变量就有几主轴。首先把椭球的各个主轴都找出来,再用代表大多数数据信息的最长的几个轴作为新变量,这样,降维过程也就完成了,找出的这些新变量是原来变量的线性组合,叫做主成分,三变量主成分分析示意图,PC1=a1xi1+a2xi2+a3xi3PC2=b1x
7、i1+b2xi2+b3xi3,主成分变换将三维空间的样本显示在二维空间,一、主成分分析的基本原理,假定有n个样本,每个样本共有p个变量,构成一个np阶的地理数据矩阵,(1),11.3 主成分分析的原理和步骤,当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。,定义:记x1,x2,xP为原变量指标,z1,z2,zm(mp)为新变量指标,(2),系数lij的确定原则:zi与zj(ij;i,j=1,2,m)相互无关;,z1是x1
8、,x2,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,xP的所有线性组合中方差最大者;zm是与z1,z2,zm1都不相关的x1,x2,xP,的所有线性组合中方差最大者。则新变量指标z1,z2,zm分别称为原变量指标x1,x2,xP的第一,第二,第m主成分。,从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2,p)在诸主成分zi(i=1,2,m)上的荷载 lij(i=1,2,m;j=1,2,p)。从数学上容易知道,从数学上可以证明,它们分别是相关系数矩阵的m个较大的特征值所对应的特征向量。,二、计算步骤,(一)计算相关系数矩阵 rij(i,j=1,2,p)为
9、原变量xi与xj的相关系数,rij=rji,其计算公式为:,(3),(4),(二)计算特征值与特征向量:解特征方程,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列;,分别求出对应于特征值的特征向量,要求=1,即,其中表示向量 的第j个分量。,计算主成分贡献率及累计贡献率 贡献率:,累计贡献率:,一般取累计贡献率达8595%的特征值所对应的第一、第二、第m(mp)个主成分。,计算主成分载荷 各主成分的得分:,(5),(6),对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响根据标准化后的数据矩阵求出相关系数矩阵求出协方差矩阵的特征根和特征向量确定主成分,并对各主成分所包含的
10、信息给予适当的解释,主成分分析的步骤小结,例1 根据表1给出的数据,对某农业生态经济系统做主成分分析。体验处理过程。,表1 某农业生态经济系统各区域单元的有关数据,11.4 主成分分析实例分析,步骤如下:(1)将表1中的数据作标准差标准化处理,然后将它们代入公式(4)计算相关系数矩阵(见表2)。,表2 相关系数矩阵,(2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见表3)。由表3可知,第一,第二,第三主成分的累计贡献率已高达86.596%(大于85%),故只需要求出第一、第二、第三主成分z1,z2,z3即可。,表3特征值及主成分贡献率,(3)对于特征值=4.6610,=2.
11、0890,=1.0430分别求出其特征向量e1,e2,e3,再用公式(5)计算各变量x1,x2,x9在主成分z1,z2,z3上的载荷(表4)。,表4 主成分载荷,第一主成分z1与x1,x5,x6,x7,x9呈显出较强的正相关,与x3呈显出较强的负相关,而这几个变量则综合反映了生态经济结构状况,因此可以认为第一主成分z1是生态经济结构的代表。第二主成分z2与x2,x4,x5呈显出较强的正相关,与x1呈显出较强的负相关,其中,除了x1为人口总数外,x2,x4,x5都反映了人均占有资源量的情况,因此可以认为第二主成分z2代表了人均资源量。,分析:,显然,用三个主成分z1、z2、z3代替原来9个变量(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 11 成分 分析 ppt
![提示](https://www.desk33.com/images/bang_tan.gif)
链接地址:https://www.desk33.com/p-1267748.html