研《主成分分析与因子分析》 .ppt
主成分分析与因子分析,英国统计学家Moser Scott 1961年在对英国157个城镇发展水平进行调查时,原始测量的变量有57个,而通过因子分析发现,只需要用5个新的综合变量(它们是原始变量的线性组合),就可以解释95的原始信息。对问题的研究从57维度降低到5个维度,因此可以进行更容易的分析。,著名的因子分析研究,美国统计学家Stone在1947年关于国民经济的研究,它根据美国1927年到1938年的数据,得到17个反映国民收入与支出的变量要素,经过因子分析,得到了3个新的变量,可以解释17个原始变量97.4的信息。根据这3个因子变量和17个原始变量的关系,Stone将这3个变量命名为:Z1总收入。Z2总收入率。Z3经济发展或衰退的趋势(时间t的线性部分)。,根据这3个变量的命名含义,可以看出这3个新的变量是可以测量的。Stone把实际测量3个变量的值(C1,实际测量总收入;C2,实际测量总收入率;C3,时间因素)和因子分析得到的3个变量值进行相关性分析,得到的结果如下表所示。,在社会、政治、经济和医学等领域的研究中往往需要对反映事物的多个变最进行人量的观察,收集大量的数据以便进行分析,寻找规律。在大多数情况下,许多变量之间存在一定的相关关系。因此,有可能用较少的综合指标分析存在于各变量中的各类信息,这些被抽象出来的综合指标之间彼此不相关,且能反映原来众多变量的主要信息,称之为因子。因子分析就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子反映原资料的大部分信息的统计学方法。即是一种通过显在变量来测评潜在变量,通过具体指标测评抽象因子的统计分析方法。,因子分析的特点,因子变量的数量远少于原有的指标变量的数量,对因子变量的分析能够减少分析中的计算工作量。因子变量不是对原有变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。因子变量之间不存在线性相关关系,对变量的分析比较方便。因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。,因子分析的数学模型,因子分析的出发点是用较少的相互独立的因子变量来代替原来变量的大部分信息,可以通过下面的数学模型来表示:,原有变量是均值为零、标准差为1的标准化变量ei,特殊因子,表示了原有变量不能被因子变量所解释的部分,相当于多元回归分析中的残差部分。,因子分析中的几个概念,因子载荷:在各个因子变量不相关情况下,因子载荷 aij 就是第 i 个原有变量和第 j 个因子变量的相关系数,即 xi 在第 j 个公共因子变量上的相对重要性。因此,aij 绝对值越大,则公共因子 Fj 和原有变量 xi 关系越强。变量共同度:也称公共方差,反映全部公共因子变量对原有变量 xi 的总方差解释说明的比例。原有变量 xi 的共同度是因子载荷矩阵A中第i行元素第平方和,即:,公共因子Fj的方差贡献:为因子载荷矩阵A中第j列各元素的平方和,即:,公共因子的方差贡献反映了该因子对所有原始变总方差的解释能力,其值越高,说明因子重要程度越高。,因子分析有两个核心问题:一是如何构造因子变量;二是如何对因子变量进行命名解释。,因子分析的个基本步骤,确定待分析的原有若干变量是否适合于因子分析构造因子变量利用旋转使得因子变量更具有可解释性计算因子变量的得分,确定待分析的原有若干变量是否适合于因子分析,因子分析的潜在要求是原有变量之间要具有比较强的相关性。如果原有变量之间不存在较强的相关关系,那么就无法从中综合出能反映某些变量共同特性的少数公共因子变量来。对原有变量作相关分析的方法是计算变量之间的相关系数矩阵。如果相关系数矩阵在进行统计检验中,大部分相关系数都小于0.3且未通过统计检验,那么这些变量就不适合进行因子分析。SPSS在因子分析过程中提供了如下几种检验方法来判断变量是否适作因子分析。,1、巴特利特球形检验(Bartlett Test of Sphericity),巴特利特球形检验是以变量的相关系数矩阵为出发点的。零假设相关系数矩阵是一个单位阵。巴特利特球形检验的统计量是根据相关系数矩阵的行列式得到的。如果该值较大,且其对应的相伴概率值小于用户心中的显著性水平,那么应该拒绝零假设,认为相关系数据不可能是单位阵,也即原始变量之间存在相关性,适合作因子分析;相反,不宜于作因子分析。,反映像相关矩阵检验以变量的偏相关系数矩阵为出发点,将偏相关系数矩阵的每个元素取反,得到反映像相关矩阵。偏相关系数是在控制了其他变量对两变量影响的条什下计算出来的相关系数,如果变量之间存在较多的重叠影响,那么偏相关系数就会较小。因此,如果反映像相关矩阵中有些元素的绝对值比较大,那么说明这些变量不适合作因子分析。,2反映像相关矩阵检验(Anti-image COrrelation matriX),3KMO(Kaiser-Meyer-Olkin)检验,KMO统计量用于比较变量间简单相关和偏相关系数,计算公式如下:,KMO的取值范围在0和1之间。越接近于1,则所有变量之间的简单相关系数平方和远大于偏相关系数平方和,因此,越适合作因子分析。如果KMO越小,越不适合作因子分析。,Kaiser给出了一个KMO的标准:0.9KMO:非常适合;0.8KMO0.9:适合;0.7KMO0.8:一般;0.6KMO0.7:不太适合;KMO0.5:极不适合。,构造因子变量,基于主成分模型的主成分分析法;基于因子分析模型的主轴因子法极大似然法最小二乘法,主成分分析通过坐标变换手段,将原有的p个相关变量xi,作线性变化,转换为另外一组不相关的变量yi,可以表示为:,其中,k=1、2、3、p,主成分分析放在一个多维坐标轴中看,是对x1、x2、x3 xp组成的坐标系进行平移变换,使得新的坐标系原点和数据群点的重心重合,新坐标系的第一个轴与数据变化最大方向对应(占的方差最大,解释原有变量的能力也最强),新坐标的第二个轴与第一个轴正交(不相关),并且对应数据变化的第二个方向因此称这些新轴为第一主轴u1、第二主轴u2若经过舍弃少量信息后,原来的p维空间降成m维,仍能够十分有效的表示原数据的变化情况。生成的空间L(u1,u2,um)称为“m维主超平面”。用原样本点在主超平面上的投影近似地表示原来的样本点。,主成分分析的步骤,数据的标准化处理,i=1、2、3、n,n为样本数。,j=1、2、3、p,p为样本原变量数目。,其中,记,计算数据 的协方差矩阵R,求R的前m个特征值:,以及对应的特征向量u1,u2,um,它们标准正交。,求m个变量的因子载荷矩阵,确定m有两种方法:一是,根据特征值的大小确定,一般取大于l的特征值;二是,根据因子的累计方差贡献率来确定。,主成分分析产生的m维主超平面,能使数据信息损失尽可能小。数据信息,主要反映在数据方差上,方差越大,数据中所包含的信息就越多,若一个事物一成不变,则无需对其进行研究。,前m个因子的累计方差贡献率计算方法为:,如果数据已经标准化,则:,一般方差的累计贡献率应在80以上。,因子变量的命名解释,经过主成分分析得到的u1,u2,um,是对原变量的综合,原变量都是有物理含义的变量。对它们进行线性变换后,得到的新综合变量物理含义即是因子变量的命名解释,它可以进一步说明影响原变量系统构成的主要因素和系统特征。实际分析时,主要通过对载荷矩阵A的值进行分析,得到因子变量和原变量的关系,从而对新的因子变量进行命名。,载荷矩阵A中某一行中可能有多个aij比较大,说明某个原有变量xi可能同时与几个因子有比较大的相关关系。载荷矩阵A中某一列中也可能有多个aij比较大,说明某个因子变量可能解释多个原变量的信息。但它只能解释某个变量一小部分信息,不是任何一个变量的典型代表。会使某个因子变量的含义模糊不清。在实际分析中,希望对因子变量的含义有比较清楚的认识。这时,可以通过因子矩阵的旋转来进行。正交旋转、斜交旋转、方差极大法,其中最常用的是方差极大法。,计算因子得分,因子变量确定后,对每一样本数据,我们希望得到它们在不同因子上的具体数据值,这些数值就是因子得分,它和原变量的得分相对应。有了因子得分,在以后的研究中,就可以针对维数少的因子得分来进行。计算因子得分首先将因子变量表示为原有变量的线性组合,即:,j=1、2、3、m,估计因子得分的方法有:回归法Bartlette法Anderson-Rubin法,SPSS中实现步骤:,下表为20名人学生关于价值观的9项测验结果,包括合作性、对分配的看法、行为出发点、工作投入程度、对发展机会的看法、社会地位的看法、权力距离、对职位升迁的态度、以及领导风格的偏好。要求根据这9项内容进行因子分析,得到维度较少的几个因子。,Statistics:Univariate descriptives:要求输出各变量的均数与标准差。Initial solulion:表示输出初始分析结果。输出的是因子提取前分析变量的公因子方差,是一个中间结果。对主成分分析来说,这些值是要进行分析变量的相关或协方差矩阵的对角元素;对因子分析模型来说,输出的是每个变量用其他变量作预测因子的载荷平方和。,Correlation Matrix:Coefficients:要求计算相关系数矩阵。Significance levels:显著性水平。选择此项给出每个相关系数的单尾假设检验的水平。Determinant:相关系数矩阵的行列式。Inverse:相关系数矩阵的逆矩阵。Reproduced:此项给出因子分析后的相关阵,还给出残差,即原始相关与再生相关之间的差值。Anti-image:反映像相关矩阵检验。反映像相关阵,包括偏相关系数的取反;反映像协方差阵,包括偏协方差的取反。一个好的因子中,除了对角线上系数较大外,其他元素应该比较小。KMO and Bartletts test of sphericity:KMO检验,检验变量间的偏相关是否很小;巴特利特球形检验,检验相关阵是否是单位阵。,Method下拉框中:Principal components:主成分分析法。该方法假定原变量是因子变量的线性组合。第一主成分有最大的方差,后续成分可解释的方差越来越少。Unweighted least squares:未加权最小平方法,该方法使得观测的和再生的相关矩阵之差的平方和最小,不记对角元素。Generalized least squares:综合最小平方法,用变量的倒数值加权,使得测的和再生的相关矩阵之差的平方和最小。Maximum likelihood:极大似然估计法,此方法不要求多元正态分布。,Method下拉框中:Principal aXis factoring:主轴因子法,用多元相关的平方作为对公因子方差的初始估计。初始估计公因子方差是多元相关系数的平方置于对角线上。这些因子载荷用于估计新公因子方差,替换对角线上的前一次公因子方差估计。迭代持续到公因子方差的变化满足提取因子的收敛判据为止。Alpha factoring:a因子法。Image factoring:映像因子提取法,也称多元回归法。由Guttman提出,根据映像学原理提取公因子的方法。把一个变量看出其他各个变量的多元回归。,Analyze框用于选择提取因子变量的依据:correlation matrix:表示依据相关系数矩阵。Covariance matrix:表示依据协方差矩阵。,Extract框用于指定因子个数的标准,其中:Eigenvaluse over:表示该选项后面可以输入一个特征值,SPSS将提取特征值大于该值的因子,SPSS默认为1。指定特征值提取因子个数是SPSS默认的方法。Number of factors:表示该选项后面可以输入要提取因子的个数。SPSS将提取指定个数的因子。理论上有多少个变量,就可以有多少个因子,因此输入的数值应该介于O和分析变量数之间的整数。,Display栏,指定与因子提取有关的输出项,Unrotated factor solution:要求显示未经旋转的因子提取结果,此项为系统默认的输出方式。,Scree plot:要求显示按特征值大小排列的因子序号,以特征值为两个坐标轴的陡坡图,可以有助于确定保留多少个因子,典型的陡坡图会有一个明显的拐点,在该点之前是与大因子连接的陡峭的折线,之后是与小因子相连的缓坡折线。,Method框用于选择因子旋转方法,其中:None:不作因子旋转。Varimax:方差极大法旋转,又称正交旋转。它使得每个因子上的具有最高载荷的变量数目最小,因此可以简化对因子的解释。Direct Oblimin:直接斜交旋转,指定该项,可以在下面的矩形框中输入Delta值,该值在01之间。0值产生最高的相关系数。Quartimax:四分最大正交旋转,对变量作旋转,该方法使得每个变量中需要解释的因子数最少。Equamax:平均正交旋转,是Varimax方法和Quartimax方法的结合,对变量和因子均作旋转。Promax:斜交旋转方法,允许因子间相关。它比直接斜交旋转更快,适用于大数据的因子分析。,Display框用于选择输出哪些与因子旋转有关的信息,其中:Rotated solution:输出旋转后的因子载荷矩阵,对于正交旋转方法,给出的旋转以后的因子矩阵模式和因子转换矩阵;对于斜交旋转显示旋转以后的因子矩阵模式、因子结构矩阵和因子间的相关矩阵。Loading plot:输出载荷散点图。指定该项将给出两两因子为坐标的各个变量的载荷散点图。如果有两个因子,则给出各原始变量在因子1和因子2坐标系中的散点图。如果多于两个,则给出前3个因子的三维因子载荷散点图。如果只提取出了一个因子,则不会输出散点图。选择此项,给出的旋转以后的因子载荷图。,该对话框选择对因子得分进行设置,其中:Save as variables:将因子得分作为新变量保存在数掘文什中。程序运行结束后,存数据编辑窗口中将显示出新变量。可在Method框中选择3种估计因子得分系数的方法:Regression:其因子得分均值为0,方差等于估计因子得分与实际因子得分之间的多元相关的平方。Bartlett:巴特立特法。因子得分均值为0,超出变量范围的各因子平方和被最小化。AndersonRubin:因子得分均值为0,标准差为1,彼此不相关。Display factor score coefficient matrix:显示因子得分系数矩阵。,该对话框可以指定输出其他因子分析的结果,并选择对缺失数据的处理办法。其中:Missing Values框用于选择缺失值处理方法:Regression Exclude cases listwise:去除所有含缺失值的个案后再进行分析。Exclude cases pairwise:当分析计算涉及到含有缺失值的变量,则去掉在该变量上是缺失值的个案。Replace with mean:当分析计算涉及到含有缺失值的变量时,用平均值代替该缺失值。,Coefficient Display Format框用于选择载荷系数的显示格式:Sorted by size:载荷系数按照数值的大小排列,并构成矩阵,使得在同一因子上具有较高载荷的变量排列在一起,便于得到结论。Suppress absolute values less than:不显示哪些绝对值小于指定值的载荷系数。选中此项,需要在后面的框中输入一个01之间的数,系统默认该值为O.1。选择该项可以突出载荷较大的变量。,相关系数矩阵,若 X 服从标准正态分布,那么:,a,za,P(X za/2)a,P(X za)a,一个总体方差已知时均值的置信区间,定理,若随机变量,则有如下定理成立:,(1),(2),因为 服从标准正态分布,所以:,P(za)a,这是一个双尾检验问题,设定假设:,则拒绝,反之接受。,(二)等级相关系数的检验。同积矩相关系数。,相关系数矩阵的逆矩阵,KMO检验和Bartlett球度检验结果,反映像相关矩阵,因子分析初始结果,因子提取和因子旋转结果表,陡坡图(公共因子碎石图),因子载荷矩阵,因子载荷旋转矩阵,因子转换矩阵,载荷散点图,因子得分矩阵,因子变量的协方差矩阵,现有沪、深两市证券交易所48家上市公司的13个财务指标数据:流动比率x1、速动比率x2、总资产周转率x3、存货周转率x4、营运资本x5、每股收益x6、净利润增长率x7、每股收益增长率x8、主营业务毛利率x9、主营业务利润率x10、成本费用利润率x11、净资产收益率x12、总资产利润率x13。分析结果如下:,