第3章 主成分分析.ppt.ppt
1,第三章系统模型与模型化,2,第三章 系统模型与模型化,第一节:系统模型与模型化概述第二节:系统结构模型化技术第三节:主成份分析及聚类分析第四节:状态空间模型第五节:系统工程模型技术的新进展,第三节 主成分分析什么是主成分分析主成分分析(Principal Components Analysis)也称主分量分析 是将多个指标,化为少数几个不相关的 综合指标的一种统计方法。,在综合评价工业企业的经济效益中,考核指标有:1每百元固定资产原值实现产值、2每百元固定资产原值实现利税、3每百元资金实现利税、4每百元工业总产值实现利税、5每百元销售收入实现利税、6每吨标准煤实现工业产值、7每千瓦电力实现工业产值、8全员劳动生产率、9每百元流动资金实现的产值指标间信息有重叠,指标数量又多。经过主成分分析计算,最后确定选择了2个主成分作为综合评价工业企业经济效益的依据,变量数由9个减少到2个,这两个主成分代表的信息达91.6%,使所研究的问题简化。,主成分分析的几何意义:为了直观,先在二维空间中讨论主成分的几何意义。一般情况下,例如有n个样品,每个样品有两个变量值X1和X2,这n个样品的散点图如带状.,由图可见这n个样品点无论是沿着X1轴方向或X2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量X1的方差和X2的方差定量地表示。,主成分分析的几何解释,主成分分析的几何解释,主成分分析的几何解释,当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。椭圆(球)的长短轴相差得越大,降维效果就越好。,对于多维变量的情况和二维类似,也有高维的椭球,只不过无法直观地看见罢了。首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。注意,和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,叫做主成分(principal component)。,正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主成分。选择越少的主成分,降维就越好。什么是标准呢?那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。有些文献建议,所选的主轴总长度占所有主轴长度之和的大约85%即可,具体选几个,要看实际情况而定。,第二节 主成分的求解 假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为 X1,X2,Xp 主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,主成分分析通常的做法是,寻求原指标的线性组合Yi。,并且满足:1(i=1,2,P)*,2 不相关性,Yi与Yj不相关。3 方差极大条件,,主成分的求解:,求系数,而其正是观测变量相关矩阵的单位特征向量。因此,通过求解 的特征方程,得到P个特征根和P个单位特征向量,把P个特征根按从大到小的顺序排列,记作i(i=1,2,p),它们分别代表P个主成分所解释的观测变量的方差,即Var(Yi)=i(i=1,2,p)。相应的P个单位特征向量就是主成分的系数(i=1,2,p)。,在实际问题中,利用主成分的目的是为了减少变量的个数,所以一般不用P个主成分,而是根据如下方法选取前K个主成分。定义 为第i主成分Yi的方差贡献率。这个值越大,说明这个主成分Yi综合原指标信息的能力越强。,主成分的方差贡献率,定义(KP)为主成分Yl,Y2,Yk的累积方差贡献率。当前K个主成分的累积方差贡献率达到85%以上时,就取K个主成分。这样K个主成分基本反映了原指标的信息,指标数目由P个减少到K个。,这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。,主成分得分:当选取了n个主成分后,把样本数据代入各主成分表达式可得样本的主成分得分。若主成分是由原始数据协方差阵计算的,则计算主成分得分时,用原始数据。若主成分是由标准化数据计算,即由R计算,则计算主成分得分时,一定要用标准化数据,否则会出现错误。,量纲相同,用协方差阵求解主成分的步骤,1.求样本均值 和样本协方差矩阵S;,2.求S的特征根,求解特征方程,其中I是单位矩阵,解得2个特征根,3.求特征根所对应的单位特征向量,4.写出主成分的表达式,例1 下面是8 个学生两门课程的成绩表,对此进行主成分分析。,1.求样本均值和样本协方差矩阵,2.求解特征方程 0,解得:,3.求特征值所对应的单位特征向量,解得:,4.得到主成分的表达式,5.主成分的含义,通过分析主成分的表达式中原变量前的系数来解释各主成分的含义。,第一主成分F1是 和 的加权和,表示该生成绩的好坏。,第二主成分F2表示学生两科成绩的均衡性,6.比较主成分重要性,第一主成分F1的方差为,第二主成分F2的方差为,方差贡献率,方差贡献率为,主成分F1和F2的方差总和为,总方差保持不变,的数据。,对此进行主成分分析。,1.求样本均值和样本协方差矩阵,2.求解协方差矩阵的特征方程,3.解得三个特征值,和对应的单位特征向量:,4.由此我们可以写出三个主成分的表达式:,5.主成分的含义,F1表示学生身材大小。,F2反映学生的体形特征,三个主成分的方差贡献率分别为:,前两个主成分的累积方差贡献率为:,量纲不同,用相关阵计算主成分的步骤:,1、原始数据标准化2、计算样本协差阵或相关系数矩阵R3、求R的非零特征根及对应的标准正交特征向量 4、求出主成分(i=1,2,P)根据累计方差贡献率大于等于80%,85%,90%等,确 定选取主成分个数。结合专业知识将各主成分给出恰当的解释,并运用其来判断样品的特性。,变量的标准化:由于主成分是根据变量的离散度也即方差的大小来确定主成分的,这样当不同指标的量纲不同时,不同指标的方差大小差別很大,主成分会受到影响,例如:X1表年收入,从万元到百万元变化,X2表净收入与总资产之比,从0.01到0.60变化,那么X1的方差的绝对量将远远大于X2的方差,这样主成分会过于照顾方差大的变量,为使主成分能均等地对待每一个原变量,应将原变量作标准化处理.,例1 对全国30个省市自汉区经济发展基本情况的八项指标作主成分分析,原始数据如下:,第一步 将原始数据标准化。第二步 建立指标之间的相关数阵R如下:,第三步 求R的特征值和特征向量。,从上表看,前3个特征值累计贡献率已达89.564%,说明前3个主成分基本包含了全部指标具有的信息,我们取前3个特征值,并计算出相应的特征向量:,从上表看,前3个特征值计累计贡献率已达89.564%,说明前3个主成分基本包含了全部指标具有的信息,我们取前3个特征值,并计算出相应的特征向量:,因而前三个主成分为:第一主成分:F1=0.456708X1+0.312729X2+0.470641X3+0.240481X4+0.250802X5-0.26267 X6-0.31944 X7+0.424712 X8第二主成分:F1=0.258512 X1-0.40431X20.107995X3-0.48868 X4+0.498801 X50.167392 X6+0.400931 X70.287536 X8第三主成分:F1=0.109819 X1+0.24505 X2+0.19241 X3+0.332179 X4-0.24777 X5+0.723351 X6+0.397525 X7+0.19241 X8,37,【主成分分析实例2】全国18 个特大城市 1996 年的6 个经济指标 X1 X6 的数据如下表。其中,X1:国内生产总值(亿元);X2:固定资产投资(亿元);X3:货运总量(万吨)X4:社会消费品零售额(亿元);X5:外贸出口额(亿美元);X6:拥有电话机数(万门)。试将该资料综合成几个指标,以反映城市经济实力的状况。,38,39,用 MINITAB计算主成分 从“统计 多变量 主成份(StatMultivariatePrincipal Components)”入口,可以进入“主成份分析”对话框,40,41,会话区给出了两张表:第一张表给出了每个主成份的方差、贡献率以及前k个主成份的累积贡献率;第二张表给出了各主成份的系数。,42,43,由系数表,第一主成份与标准化变量的关系可用下列线性组合表示:PC1=0.439X1+0.429X2+0.397X3+0.434X4+0.328X5+0.412X6 式中,六个系数都是正数,且数值相差不大,表明:这六个变量对第一主成份都有贡献而且贡献差不多,能够反映各项指标的综合情况,可将第一主成份定为“综合经济实力”。同样,第二主成份与标准化变量的关系可用下列线性组合表示:PC2=-0.094X1-0.051X2-0.456X3-0.231X4+0.835X5+0.172X6 X5(外贸出口额)的系数为正且最大,其次X3(货运总量)、X4(社会消费品零售额)的系数为负且较大,可认为第二主成份代表“新型经济实力”。,44,计算各个城市前两个主成份得分:在工作表C8-C12中依次填入主成份系数、主成份得分、特征值,重新进入主成分分析:,45,分别以各个城市的第一主成份得分Z1、第二主成份得分Z2为坐标轴,绘制散点图:,46,根据1996年数据,从散点图得出,综合经济实力较强的依次是上海、北京、广州,新型经济实力依次是深圳、广州、厦门。,