欢迎来到课桌文档! | 帮助中心 课桌文档-建筑工程资料库
课桌文档
全部分类
  • 党建之窗>
  • 感悟体会>
  • 百家争鸣>
  • 教育整顿>
  • 文笔提升>
  • 热门分类>
  • 计划总结>
  • 致辞演讲>
  • 在线阅读>
  • ImageVerifierCode 换一换
    首页 课桌文档 > 资源分类 > DOCX文档下载  

    对主成分分析中综合得分方法的质疑(王学民).docx

    • 资源ID:157920       资源大小:46.22KB        全文页数:7页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    对主成分分析中综合得分方法的质疑(王学民).docx

    对主成分分析中综合得分方法的质疑王学民原载于统计与决策,2007年第8期摘要:在作主成分分析时,国内近年来流行一种通过建立综合评价函数来对各样品进行综合排名的方法。本文对这一方法的不科学性作了阐述,并指出在综合评价函数中对各主成分使用贡献率加权是错中加错。关键词:主成分;信息量;综合评价函数;综合得分一、问题的提出在多元数据分析中,近年来国内流行一种通过建立综合评价函数来对所有样品进行综合排名的方法。该方法是这样的:对P个原始变量*'"Zr'''",通过主成分分析,取前例个主成分必,歹2,歹叫其方差分别为4'4,乙,以每个主成分必的贡献率/i=作为权数,构造综合评价函数F=aly,+a2y2-+amym计算出每个样品的(小、)综合得分,然后依这个得分的大小对所有样品进行综合排名。对这种用线性组合的方式来综合各主成分的方法,笔者从未在国外的有关多元统计分析的文献中见过。该方法粗看起来似乎有一定道理且很有吸引力(似乎可以综合排名7),但仔细推敲之后就会发现这一方法是对主成分思想和方法的误解,是不科学的,没有什么理论和应用上的价值。该综合排名方法在我国的多元数据分析应用中已得到了比较普遍的误用,笔者曾在参考文献中的253页上简略地谈到过这一问题,现觉得很有必要针对这一问题作一具体阐述,谈谈自己的观点,供大家参考和讨论。二、主成分的基本思想除了将主成分法用于聚类或回归分析或寻找变量之间的共线性关系等目的之外,主成分分析的一般目的由两点组成:(1)将多个有相关关系的变量压缩成少数几个不相关的主成分(综合变量),并保留绝大部分信息;(2)给出各主成分的具有实际背景和意义的解释。这里我们只讨论主成分分析的这种一般目的。主成分的价值就在于它的信息量(可用方差来度量)达到最大化,即使前少数几个主成分能使累计贡献率达到一个较大的百分数,这几个主成分能不能用还得看它们是否都能得到符合实际意义的解释C例1在1984年洛杉矶奥运会IAAF/ATFS田径统计手册中,有55个国家和地区的如下八项男子径赛运动记录:xI:IOO米(单位:秒)W:1500米(单位:分)x2:200米(单位:秒)%5000米(单位:分)*3:400米(单位:秒):10000米(单位:分):800米(单位:秒):马拉松(单位:分)经计算“1,”2,/的样本相关矩阵入列于表1。火的前两个特征值、特征向量*丰及贡献率列于表2,其中Xi是不经标准化得到的,即Xi的均值和标准差分别为0和Io表1玉X2%X7玉1.000x20.9231.000x30.8410.8511.000工40.7560.8070.8701.000X50.7000.7750.8350.9181.000A0.6190.6950.7790.8640.9281.000X70.6330.6970.7870.8690.9350.9751.0000.5200.5960.7050.8060.8660.9320.9431.000特征向量h,2*x:100米0.3180.567*2:200米0.3370.462“3:400米0.3560.248季*4;800米0.3690.012*5:1500米0.373-0.140*天:5000米0.364-0.312*“7;IOOOO米0.367-0.307*演:马拉松0.342-0.439特征值6.6220.878贡献率0.8280.110累计贡献率0.8280.937由表2知,前两个主成分的累计贡献率已高达93.7%,第一主成分必在所有变量上有几乎相等的正载荷,可称为在径赛项目上的强弱成分。第二主成分乃在%,”2,”8上的载荷基本上逐个递减,反映了速度与耐力成绩的对比。前两个主成分必和虽然得到了很好的符合实际意义的解释,但这种解释毕竟带有一定程度的模糊性,这是主成分分析的一个特点,这种解释的模糊性也是变量降维需要付出的代价。体育径赛项目方面的专家也许能制定出实际意义更清楚、更能反映各国在径赛项目上强弱的指标ZI(例如,在系数平方和为1的前提下,取1*1 * 1 Z = 产 X1 H产 X)+ H产 Xr2222220.354x*÷0.354x,+÷0.354x* IZO)和反映速度与耐力成绩对比的指标,2,但4、22这两个指标合起来所包含的信息量不如或明显不如歹1、%所包含的信息量大。这两个主成分的优势就在于它们合在一起能拥有最大的信息量,而不是它们各自能多么准确地反映各国在径赛项目上的强弱和速度与耐力成绩的对比。三、综合评价函数存在的问题在许多实际问题中,我们确实非常需要一个综合指标来对所有样品进行排序,但这个综合指标不应想当然地从前几个主成分的线性组合来产生。设作主成分分析时取前例个主成分丁|'»2,歹刖是合适的,则综合评价函数为"+叫它存在以下一些问题:*到底包含有原始变量*''2,""的多少信息应用此方法者都未作说明C当然,户'所含的信息量不会超过第一主成分必O(2)产到底具有什么样的实际含义,应用者都没有解释或作不出解释,只是笼统地理解为所谓的“综合”指标,用这种不知其具体含义的指标来对所有样品进行排序又有何实际意义呢?这样的排序说明不了什么问题。(3)y''2,>的首要价值就在于它们合在一起拥有最大量的信息,这种信息对原始的个变量绝对不是包罗万象的(如并不含有关于原始变量均值等的信息),而仅是体现在数据的变异性上。把反映数据变异性信息的前例个主成分线性组合起来将会瓦解主成分在变异性信息上的优势,主成分分析一旦离开了反映变异性的信息量,也就没有价值和意义了。Var(F)=a;Va()+a;Var(%)+a:Var仇)=+L+.+(P2(P2(P2444(4)由于9/<=1/7/故第i个主成分必对*的方差贡献所占的比例(容易证明,该比例就是“(匕其中,(必,")是匕与尸的相关系数)为,j=l,2,.,加31=13>O 右丫+右(2)3÷在主成分分析中4一般会远大于其他的40=2,.,加)以致必对F的方差贡献所占的比例通常是很大的,而其他必对户的方差贡献所占的比例通常都很小,因此*未能对必"=2,,”)起到什么“综合”作用C在许多实际问题中,作主成分分析时常常会出现4>2否若取前两个主成分必和外,则必对户'的方差贡献所占的比例为Q=一=88.89%9而对A'的方差贡献所占的比例为3÷(24)3+石在例1中0.8283O.8283+O.1IO3=99.77%=0.23%_OJlO3升+一。828,+0.1U因此,通常影响/的主要是第一主成分,而其他主成分对户'的影响一般都很小。在例1中,综合评价函数为F=alyl+a2y2=0.828%+0.110%=0.326x+0.33OE÷0.322x;+0.307x*+0.293x*+0.267x;+0.270x;+0.235x*将各系数均除以这些系数的平方和的平方根(以使调整后的系数平方和为1,便于与主成分的载荷进行比较),得F'=0.390x:+0.395x;+0.385x;+0.367x:+0.35IE+0.320x*+0.323x;÷0.28lx;将变量前的各系数与表2的主成分载荷比较,可以发现户'与必较接近,而与无相差很远。“既没有必的信息量大,又不如必易解释,看不出构造厂有什么实际价值。(5)在综合评价函数中,对各主成分必2,M分别使用权数,2,0m是错中加错,实际上各主成分的方差不同,具有自动加权的功能。42日、乂住mP-13z÷+'+CCVfn“住m也就是说,使用iz,2/2mJm比使用F+Vm更糟糕。M对b*的方差贡献所占的比例为A.方J(i=l,2,与匕的贡献率成正比。4/-1在因子分析中,对因子得分建立类似综合评价函数的方法同样也是错误的。参考文献1王学民.应用多元分析(第二版)M.上海:上海财经大学出版社,2004.

    注意事项

    本文(对主成分分析中综合得分方法的质疑(王学民).docx)为本站会员(夺命阿水)主动上传,课桌文档仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知课桌文档(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-1

    经营许可证:宁B2-20210002

    宁公网安备 64010402000986号

    课桌文档
    收起
    展开