主成分分析.ppt
主 成 分 分 析,Principal Component Analysis,问题的提出,医学科学研究涉及的变量,互相之间可能会有一定联系(多重共线性);已有变量的少数几种线性组合(主成分),已经能够很好的反映原始数据蕴涵的信息。主成分分析就是主成分的提取过程。,基本原理,基本原理(续1),设R为X1X4的相关系数矩阵,则有:其中,A是所谓组合系数矩阵(负荷矩阵)。,基本原理(续2),则有:,设R的特征向量矩阵为:设R的特征值为:令,基本原理(特征根),对于矩阵RPP,则由下列行列式确定的P阶方程之根,称为R的特征根。,基本原理(特征向量),对于矩阵RPP,已知其特征根为i,则满足下式的向量为该特征根对应的特征向量:,主成分的性质,1.主成分间互不相关 2.组合系数构成的向量为单位向量 3.各主成分的方差是递减的 4.总方差和原始变量的方差相同,(各主成分独立地反映某一方面的信息),(最重要的主成分解释最多的变异),(主成分分析并未改变原始数据的总的信息量),实例分析1(方435_25_1),1985年中国28省市汉族城市男生1922岁组若干形态指标的平均值。数据集中,28行表示28个省份,6列表示6项指标。试提取全部的主成分。,实现步骤,创建数据集或打开现成的数据集。2.Analyze Data reduction Factor.,具体操作步骤,Analyze Data Reduction Factor 所有变量选入“Variables”Descriptive 中选 KMO and Bartletts test of Sphericity;Correlation Matrix 中选 Coefficients Extraction Extract,选中Number of factors 3 Rotation Display 中选 loading plots Scores 中选 save as variables和 Display factor score;其余均按默认值 ok,计算实现与结果讨论(1),相关系数阵,计算实现与结果讨论(2),KMO检验与球形检验,用于检验变量间的偏相关性,越接近1,表示偏相关越小。,用于检验变量间的独立性,P0.05时,提示各变量间不独立。,KMO的计算:,计算实现与结果讨论(3),特征根,贡献率,累积贡献率,计算实现与结果讨论(4),因子图(主成分与各变量的关系),计算实现与结果讨论(5),特征向量矩阵,计算实现与结果讨论(6),第一主成分的表达式(p.439,表25.4)其中,xi为标准化的数值。,