因子分析的基本理论.docx
一、因子分析的基本思想:将变量依据相关性的大小分组,每组变量代表一个基本结构,这个基本结构成为公共因子。此时原始变量就可分解成两部分之和的形式,一部分是少数几个不可测的公共因子的线性函数,另一部分是与公共因子无关的特殊因子。因子分析还可用于对变量和样本的分类处理在得出因子表达式之后,就可把原始变量的数据带入表达式得到因子得分值,根据因子得分值在各因子所构成的空间中把变量和样本点画出来,从而得到直观的分类结果。将研究变量间相关关系的因子分析称为R型因子分析,将研究样本间相关关系的因子分析称为Q型因子分析。二、因子分析的基本模型:设有个样品,每个样品有个观测量,这个观测量有较强的相关性。将样本观测数据进行标准化处理,此时,X=(X,%2,,XP)',用尸=S,序,KJ(m<p)表示标准化后的公共因子。模型为:XAF+,aa2mam24叽注:(前三条为因子模型的假设前提)1、E(X)=O,协方差矩阵CbV(X)=Z与相关矩阵R相等;2、E(F)=O,尸的协方差矩阵为单位矩阵/,即向量产的各分量是相互独立的;2即CoV =03、E()=0,£的协方差阵为对角阵,即0,即£的各分量之间也是相互独立的。*4、厂称为公共因子,£称为特殊因子,A的各个元素均称为因子载荷,A称为因子载荷矩阵。的绝对值越大,表明X,和鸟的相依程度越大,或称公共因子Fz对于Xj的载荷量越大。三、因子模型中指标的统计意义1、因子载荷%COV(Xi,F)=4aij是Xi和Fz的协方差,同时也是Xi和Fj的的相关系数。其统计意义表示Xi依赖于Fj的分量(比重)。因此他也叫权,由于历史原因心理学家将它叫做载荷。2、变共同度Xi的共同度是指因子载荷矩阵A中第i行元素的平方和,即M=ZGa=12卬)J=I由于Var(xi)=h2+=可看出变量Xj的方差由两部分组成:第一部分为共同度月,它刻画全部公共因子对变量Xj的总方差所做的贡献,后越接近1,说明该变量的几乎全部原始信息都可由所选取的公共因子说明,如后二0.95则说明Xj的95%信息被6个公共因子说明了,也就是说由原始变量空间转为因子空间转化的性质越好,保留原来信息量越多。第二部分苏是特殊因子方差,与变量Xj本身变化有关,不能够由公共因子解释。3、公共因子F,的方差贡献共同度考虑的是所有公共因子£,鸟,耳,与某一个原始变量的关系,与此类似,考虑某一公共因子Fj与所有原始变量X,X,X的关系。g"G"=12,m)/=Ig;表示的是公共因子Fj对原始变量X的方差贡献。g;越大,表明公共因子Fj对X的贡献越大,或者说对X的影响和作用越大。若将因子载荷矩阵A中的所有居都计算出来,按其大小顺序排序,就可以依此提取出最有影响的公共因子。四、因子分析的步骤StepK确定因子载荷矩阵A因子载荷可用这些方法求得:主成分法,主轴因子法,最小二乘法,极大似然法,因子提取法。这些方法求解因子载荷的出发点不同,所得结果也不完全相同。主成分法:设有P个变量,则可以找出个主成分。将这个主成分按由小到大顺序排列为小力,人,则主成分与原始变量存在以下关系:K=lixi+12x2+÷lPpX=%/+/2乂2+%X,Yp=yp1X1+yp2X2+7PPXP上面加为随机变量X的相关矩阵的特征值所对应的特征向量的分量,由于特征向量彼此间正交,X到丫之间的转换关系是可逆的,于是可解出由y至X的转换关系为:Xl=%J+/122+%pYpX2=%1X+/22为lYlPp/、SQ1)Xp=YpiK+乙济+7,对上面每一等式只保留前加个主成分而把后面的部分用代替,则(1)式变为:X1=%X+%2%+与X?=,2出+>22八+*2(2)XP=-IK+7p2为+%为将工转化为合适的公共因子,现在只需要把主成分工变成方差为1的变量,即将X除以其标准差即可。由主成分分析的知识知道其标准差就是特征值的平方根口,于是令Fi=Yjmi,%=J可以将式(2)变为:X=%-+%2-+X2=出,+a21F1+邑VXP=M+与2苞+与这样就得到了因子载荷矩阵A和一组初始的公共因子(未旋转)。但此时,J之间并不独立,不符合因子模型的假设前提。Step2因子旋转对上一步的因子载荷矩阵实行旋转,即对初始公共因子进行线性组合,以期找到意义更为明确、实际意义更明显的公共因子。经过旋转后,公共因子对Xj的贡献年并不改变,但由于载荷矩阵发生了变化,公共因子本身对原始变量的贡献居不再与原来相同,从而经过适当的旋转可以得到比较令人满意的公共因子。因子载荷通常分为正交旋转和斜交旋转,它们都使新的因子载荷系数要么尽可能接近零,要么尽可能远离零。SteP3、因子得分因子模型建立起来之后,反过来考察每一个样品的性质和样品之间的相互关系。通过求出各个样品在各个公共因子上的取值,即因子得分,就能根据因子取值将样品分类,研究哥各个样品间的差异等等。假设公共因子F由变量X表示的线性组合为:Fj=%+j22+jpp,J=1,2,加(3)此处尸和X均为标准化向量,P.称为因子得分系数。这样,利用一组样本值,通过最小二乘法或极大似然法可以估计此67。将估计出的因子得分系数和原始变量的取值带入式(3)使可求得因子得分,从而进行样本点之间的比较分析或对样本点进行聚类分析等。注:所选取的公共因子个数不同,因子得分也就不同。