《主成分分析在经济问题中的应用毕业论文.docx》由会员分享,可在线阅读,更多相关《主成分分析在经济问题中的应用毕业论文.docx(31页珍藏版)》请在课桌文档上搜索。
1、2013年度本科生毕业论文(设计)主成分分析在经济问题中的应用院(系):数学学院专业:数学与应用数学年级:学生姓名:学号:导师及职称:2013年6月2013AnnualGraduationThesis(Project)oftheCollegeUndergraduatePrincipalcomponentanalysisintheapplicationoftheeconomicproblemsDepartment:DepartmentofMathematicsMajor:MathematicsandAppliedmathematicsGrade:2009StudenfsName:Xiaojiao
2、ChenStudentNo.:090440242Tutor:KuohuiYeJune,2013摘要在现实生活中,有很的问题含有过多的变量,而这些变量之间又或多或少存在一定的关系,但它们之间的联系有的较为明显,有的又联系甚微。主成分分析能够找出其中联系甚微的变量,并用它们近似的表达出整体的联系,从而起到减少变量个数的作用,进而简化模型,起到用局部表示整体的作用。关键词:主成分分析法;变量筛选;降维;SPSS数据处理AbstractInreallife,thereareproblemswithtoomanyvariables,andbetweenthesevariablesismoreorless
3、thereisacertainrelationship,butthecontactbetweenthemthereareevident,somehadlittlecontact.Principalcomponentanalysistofindoutthecontacteffectofvariables,andtheyexpresstheirapproximateintegrallink,soastohavetheeffectofreducethenumberofvariables,andsimplifiedmodel,havetheeffectofusinglocalsaidoverall.K
4、eywords:Principalcomponentanalysis;Variableselection;Dimensionreduction;1.inearmodel引言11.主成分分析法的介绍211主成分分析法的描述21.2主成分分析的基本原理22.主成分分析法降维的计算方法52.1主成分的确定52.Ll数据的标准化52.1.2相关系数矩阵的计算62. 1.3计算特征值与特征向量62.1. 4计算主成分贡献率与累计贡献率71.1 .5计算主成分的载荷矩阵81.2 .6计算新的主成分82. 2通过主成分分析对变量进行筛选82.1.1 求相关系数矩阵的特征值与特征向量92.1.2 2.2确定贡
5、献率最小的变量92.1.3 根据需求确定新的变量1111121221253.主成分分析法的应用实例3. 1自变量的确定3.1 模型的建立3.2 模型的优化3.5结果分析参考文献引言对于许多问题,往往不同的变量之间存在着一定的相关关系,可以理解为它们之间存在一定的重叠关系。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍,耗费人们的精力与时间。倘若能够将变量的个数进行削减,这必然导致信息丢失,使得信息不完整。为了有效的减少变量的数量,并且保存着绝大多数的数据信息,人们在不断的探索着。然而主成分分析法,便是一种行之有效的方法,它能够有效的减少变量的个数,并且在各行各业中都得到应用。
6、例如,一些熟悉的例子如物价指数、货币工资比、生活费用指数、商业活动指数等,如何最大程度的保留信息的完整度,这就成了一个问题。主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点:1)主成分个数远远少于原有变量的个数;2)主成分能够反映原有变量的绝大部分信息;3)主成分之间应该互不相关;4)主成分具有命名解释性。总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。1 .主成分分析法的介绍1.1 主成分分析法的描述主成分分析也称主分量分析,旨在利用降维的思想,把多指
7、标转化为少数几个综合指标。在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析法是把给定的一组具有相关性的变量通过线性变换转成另一组不具有相关性的变量,并将这些新的变量按照方差依次递减的顺序排列,使得新变量中的第一个变量具有最大的方差,第二个
8、变量次之,按照此规律,为新变量中所有的变量进行排序,直至第n个变量,对应的变量称之为第一主成分,第二成分,第n主成分。针对一个指定的问题,新变量中的每一个变量都包含着原始数据的一部分信息,而这部分信息在原始变量中又占据着一定的比例,这个比例也可以称之为权重。然而往往许多问题中所包含的变量过多,这对于人们分析问题是不利的,虽然这些新变量可以将原始数据完整的表示出来,但用这些新变量中的少数几个变量也能够近似的反映出原始变量的所包含的信息,将原始信息的以综合评价的方式体现出来,并且保持着原始信息85制以上的内容。这样就可以减少变量的个数,方便人们对问题进行分析,这样的方法,我们也称之为主成分分析法。
9、1.2 主成分分析的基本原理主成分分析实际上是基于线性方程组和线性变换理论体系上的一种方法。它是一种将原来的多个变量化为少数几个综合指标进行分析,达到降低维数、减少变量,使得模型的复杂程度降低的计算方法。给定一组变量指标X,则XX,X=.2,X-nJnl其中X是n行1列的矩阵,n代表有多少个变量。假设它们的系数矩阵为A,则ai,lai,2a,nA_a2,!a2,2a2.nA.,_aPaP2aP-11Jpxn其中A是P行In列的矩阵,p代表有多少组数据,n代表有多少个变量。给定一组由变量X产生的变量Y,则YY=,_y11JpI由此,可以得到等式AX=Y,即aUa2.1ai.2a2.2aLna2,
10、nX1X2Yly25ap.2ap11-n_Xn_nl_Vn_PXl可以得到对应的方程组ai,1xiai.2x2ai,11xn=ypa2jX1+a2X2.+a2,nXn=y2,ap.lXl+ap.2X2+ap,nXn=yp.利用初等变换的方法容易得到方程组的解为X=y1+br+Xr+t1r+2Xr+2+.+b1llXn,X2=y2+b2r+Xr+1+b2r+2X什2+*+b1Xn,xr=yrbr,r+1xr+1br,r+2xr+2.br,nxn.其中X、X2、X线性无关,且X1是XE、Xm、Xn的所有线性组合中方差最大的组合,X2是XE、Xr,2、Xn的所有线性组合中方差仅次于Xl的组合,Xr是
11、Xe、Xl2、Xn的所有线性组合中方差最小的组合,同时也是该方程组的解,所以这几个变量能够完整的解释该方程组,从方程组解的形式上容易看出,X、X2、Xl被表示成了Xe、Xe、Xn和的形式,所以XcX2、Xr实际上是由Xh、Xm、Xn综合决定的,故称X1SX2、Xr为原变量的综合指标并用Z1sZ2、Zr来表示,即z1=y1+bz2=y2bX.1x+b1,r2xr2+btlXll,l+b2,r+2xr2+-+bl,nx11:zr=yrbr,r+1x.1br.r.2xr+2brnXn其中Z是综合指标,且Z是P行1列的矩阵,P代表有多少个综合指标的个数。即Z1Z2B称为ZcZ2、Zr的载荷矩阵。即b.
12、r+lbb2.rl包bb将ZcZ2、Zr按照Xe、Xm、Xn的方差由大到小排列,像这样的二、Z2、Zr称为第一主成分、第二主成分、第r主成分,而这些主成分Z的载荷矩阵是原变量X的系数矩阵的r个较大的特征值所对应的特征向量。2 .主成分分析法降维的计算方法2.1 主成分的确定2.1.1 数据的标准化在获取的数据中,不同变量往往会存在着不同的单位,即量纲,量纲的选取方法不同必然导致最终结果的不同,这就要求我们对原始数据进行一定的处理。最常用的方法就是将数据进行无量纲化处理,也称数据的标准化。首先将数据进行标准化,对原始数据数据标准化的必要性:进行主成分分析进行综合评价时,所选取的样本指标往往具有不
13、同的量纲,像这样的数据是不具有可加性的。即使部分的指标量纲相同具有可加性,也并不是说就能够直接进行相加,因为结果往往受到现实条件所约束,进行这样的操作,所得到的结果往往是不切实际的。举一个简单的例子,例如,对于某个班级同学的学习效果进行分析时,各门功课的成绩都是以分数的形式表现出来的,分数本身并没有单位,只是一种量的体现,对各门分数直接的进行相加,这样就可以知道该班的学习效果了。事实上,这种看法是不正确的,总分在一定程度上是可以反映学习效果,但由于各学科所涉及的难易程度以及所占的分量并不一定相同,从而导致各学科的成绩的性质是不相同的,因而成绩不能直接相加,必须先计算整个年级该课程的绝对分数,再
14、将该班的该课程分数与年级的绝对分数进行对比,然后再进行综合,这样的结果才是较为合理的。而数据的标准化,就是进行这一项工作,由此可见,对原始数据进行标准化是有必要的。X按照下列的方式进行标准化Xij =,i = l,2,SiP,Jpn,p,=l,2,其中IPIPIj=-EXijO;=g(x广可)21=1,2,p,=l,2,Pi=IP-Ii=I得到无量纲数据矩阵2.1.2 相关系数矩阵的计算相关系数矩阵是由矩阵各列间的相关系数构成的。也就是说,相关矩阵第i行第j列的元素是原矩阵第i列和第j列的相关系数。如果用R表示系数矩阵,Q表示系数矩阵的分量,由相关系数的定义,我们可以知道也表示的是第i个变量与
15、第j个变量是否在一条之间上。若rij=l,则这两个变量正相关;若小二-1,则这两个变量负相关;若口尸0,阳一M=O4,i=l,2,mK4啕1=12=扁4j7=R=-RRi=ii(/?)(q)=(4)(4)RT) = (Y)(Y)44 4o = L2, ,mzzZ2Zm = L2, A A=Im,AJi = IZAJt=Iin.y,1,k(km)Iij=ij,i=1,2,%j=1,2,9k.=11X1+21x2+lxn,F2=12Xl+l222+QXn,Fk=llkXl+l2kX2+lnkXn.r=X1+x2+x3x4+x5+x6+x7+x8,X1X2X3X4X5X6X7X81176602479
16、20250182969417101312711101115139219047152795300.85298.15199.1237495143281704531942.59520.91358.64316.89232.90448.38179.68185.6541926894808640839356.83257.1549939205161969551932104823745399395483105556705245592287961958.3150046500.49439.29395.016278231807258.5472014.02533.66547.96533.66457.02690.0034
17、3.2828413822718459088624363886862604902284300819584924169263773699394103472113934384759821510102709.60686.79733.53407.37843.621032.80528.15240.24112914.39800.51808.66446.52996.721097.4660085277.75123111929017890419498481147.1212030362054309491336280310420098228601801357.411329.166990935770144259.811
18、165.911145.41691.831417.121358.2678620418.3115447854128420122891786.941682.57147276856414742116480471144434133214908011983701627648717749915175506.331674.701405.011023.172149.691851.7496898581.26ZX1ZX2ZX3ZX4ZX5ZX6ZX7ZX8-96-87-1.35-102-1.10-139-138-114-.85-.74-1.21-1.02-1.05-1.26-1.26-99-82-76-1.05-.
19、93-100-110-113-87-83-86-92-74-96-99-104-79-82-.86-.79-.57-.88-.85-.89-.54-80-81-.67-.36-.75-72-63-30-76-72-5407-65-58-54-10-.54-.57-.33-.60-.39-.13-.23-79-42-.45-.13-.50-24-06-06-64-17-32-03-.51-061613-45。-.02.17-.33.18.29.39-1517.2443-09.41524610606164.39747974481.13.941.09.81.83.861.06961.311251.3
20、11.251241101311401591671.591.811.711431371592.172.271.792.341.971.921.722.24&因子分析X1X2X3X4X5X6X7X8 夕夕夕夕夕夕夕夕Zscwe(Xi)IZX1夕ZSCore(X2)ZX2/ZSCofe(X3)|ZX3ZSaXe(X4皿4夕ZSCore(X5)ZX5夕Zsce(X6)ZX6夕ZS8re(X7)gX7g(CTotalVariaoceExplainedComoonentinitialEigenvaluesExtractionSumsofSquaredLoadingsTotal%OfVarianceCumu
21、lative%Total%OfVarianceCumulative%17.72496.54696.5467.72496.54696.5462.1942.42998.976.1942.42998.9763.058.72699.702.058.72699.7024.013.16199.863.013.16199.8635.005.06199.924.005.06199.9246,00404899972004.04899.9727.002.02099.992.002.02099.9928.001.008100000001,008100,000ExtractionMethod:PrincipalCom
22、ponentAnalysis.CoinponetrtMatrix3Component1Zscore(Xl).991Zscore(2).986Zsco(3),992ZSCOIe(X4).964Zscore(5).995Zscor(X6).980Zscore(7).978Zscore(XS).975数字F=0.991X1+0.986X2+0.992X3+0.964X4+0.995X50.980X6+0.978X7+0.975X目标天量(I):O991X10986.X20992”X30964X40995*X50980*X60978X7.0975*X8X1X2X3X4X5X6X7X8夕夕夕夕夕夕夕/3
23、匕匕H4-= , 4 5 6 iI1 2 3, ,& i I o C-I: i J Lid Iim 1的敬担(g):全部B*CDF 3tC CDF 转换当新日期,时间 日明爆豆日期创建J0Jfe(I)J(可遇的个案送择条件)(wI三(P)三三(R)取消K助- V=; 456 ;X1 X2 X3 X4 X5 X6 *X7 X8函数里:全部宜术CDF吗末中心CDF转换当前日明时间 日期侬豆日期创建目标克量。):数字表送式也):t a(P) (R) 取消 杂助如果j (可送的个案送择呆件)X1X2X3X4X5X6X7X8FY 夕夕夕夕夕夕夕夕夕夕* V,789 1QIjJas.1JJLLJIoJ11
24、l3 cJLJI*一FY3488953537563865.883919.464127.864185.644270.724331624549894615924925.554997.995323.805403.735946766030006421786510977085.077182.107835.787942.868579558696559863.019997.4711092.1111242.8512099.5312264541329052134714614956.1715160.88闻gJtKA(P)三三(R)取历班助权重!)ModelSummaryModelRRSquareAdjustedR
25、SquareStd.ErroroftheEstimate11.000i1.0001.0001.88288Coefficients3ModelUnstandardizedCoefficientsStandardizedCoefficientstSlg.BStd.ErrorBeta1(Constant)3.9941.0893.670002-1.013,0001.0007704576000y=1.Ol3F+3.994,年份FYYja归119950034889535375635383021996.003865.883919.463920.1331997.004127864185644185.52419
26、980042707243316243302451999.004549.894615.924613.0362000.004925.554997994993.57720010053238054037353970082002.005946.766030006028.0692003.006421.786510.976509.2610200400708507718210718117112005.007835787942867941.64122006.008579.558696558696.0813200700986301999747999523142008.001109211112428511240.3
27、1152009.0012099.53122645412260.8216201000132905213471461346729172011.0014956171516088151545920,80.(Xr15,000.00-均幺110XXX).00-5.000.0.00-19951996199719981999200020012002200320042005200627200200920102011r=x1+x2+x3x4+x5x6+x7+x8,Y=F9TotalVarianceExplainedComponentInitialEigenvaluesExtractionSumsOfSquared
28、LoadingsTotal%OfVananceCumulative%Total%OfVananceCumulative%17.72496.54696.5467.72496.54696.5462.1942.42998.976.1942.42998.9763.058.72699.702.058.72699.7024.013.16199.863.013.16199.8635,005,06199.924,005,061999246.004.04899.972.004.04899.9727.002.02099.992.002.02099.9928.001.008100.000.001,008100.00
29、0ComponentMatrix3Component12345678Xl.991.039-.119-.034-.021.026.001-.0132,986,078-.145.014.013-.002.001.017X3.992.108.041.026-.037-.018.022.006X4.964.244.091.053-.027.008.009.001X5.995-.070-.041.038,011-.042.005-.012X6.980-.185.042.048.025.031-.014-.001X7.978-192.061-.037-.001004.028005X8.975.200.07
30、4.055.038.006-.008-.002xX3MX5X6X7X81766.02250.18296.94171.01312.71110.11151.3921904713008529815199123749514328170453194259358.64316.89232904483817968185654192689408393568325715499392051619695519321045399395483105556705245592287961958315004943929395016278231807258.547201402547965336645702690003432828
31、413822718462436388.68626049022843008195.849241692699394103472113934384759821510102709.60733.53407.3784362103280528.1524024112914398086644652996721097466008527775123111.9290419498.481147.121203.03620543094913362803982286018013574113291669909357701442598111454169183141712135826786204183115447854122891
32、78694168257147276856414742116480471133214908011983701627648717749915175506.331405.011023.172149691851.7496898581.26JX61312712374953448384499.3955670566278276900089022899343810103280111097461212030313132916141358261514727616162764171851.74ModelSummaryModelRRSquareAdjustedRSquareStd.ErroroftheEstimate
33、1981a,962,9593390012CoeHicIentsaModelUnstandardizedCoefficientsStandardizedCoefficientstSig.BStd.ErrorBeta1(Constant)269691418,76864452967.649.395.98119.384,000y=7.649X6+269.691.r=X1+x2+x3x4+x5+x6+x7+X8,r=7.649X6+269.691,ModelSmnmaryModelRRSquareAdjustedRSquareStd.ErroroftheEstimate11.000a.999.99995
34、.26612CoefficientsModelUnstandardizedCoefficientsStandardizedCoefficientstSig.BStd.ErrorBeta1(Constant)-869.01066.655-13.037.00011.674.097.55017.317,00041.826.362.1095.039.000X62.772.17835515,616,000Y=1.674X1+1.826X4+2.772X6-869.01.进行绘图分析(方法同3.3),得到结果如图26所示:几乎与原图26:原曲线与拟合曲线由此可以看出,相较于3.4的结果而言,3.5的结果更
35、加的精确,始数据的结果是相同的,但却减少了5个自变量。总结本篇文章主要给出一种对于线性问题Y=a1X1+a2X4+anXn+b,利用主成分分析法在SPSS中能够极大的减少变量的个数,达到降低维数、简化模型的目的。可以看到,在进行主成分分析的过程中,所保留的变量与信息的完整程度密切相关。变量越多,则结果越精确,相对的模型也就越复杂;反之,变量越少,则结果越误差较大,相对的模型也就越简单。至于是需要让模型更加精确,还是更加复杂,往往模型的选取需要结合现实条件,按照需求进行选取。这一类模型存在于各个行业中,但在商业经济中尤为明显,这是由于商业经济往往要求将很复杂的数据集综合成商业指数形式,也就是只用
36、一个变量或者少数几个变量表示整个系统这也是出成分分析的本质所在。利用主成分分析法,在减少了变量、降低了模型复杂程度的同时,在现实生活中便是减少了人们的工作量和工作时间。合理的利用主成分分析法来辅助解决问题,将越来越受到重视。参考文献1朱建平.应用多元统计分析M.北京:科学出版社,2006:20-33.2赵静,但琦.数学建模与数学实验M.北京:高等教育出版社,2008:1-14.3北京大学数学系几何与代数教研室前代数小组.高等代数(第三版)ML北京:高等教育出版社,2003:22-40.4梁彦冰,崔雪松.SPSS15.0统计分析与实践应用宝典M.北京:中国铁道出版社,2010:65-74.5高惠
37、璇.应用多元统计分析W.北京:北京大学出版社,2006:10-336万火星,檀亦丽.主成分分析原始数据的预处理问题J.中国卫生统计,2005.22(5):12-14.致谢光阴似箭岁月如梭,四年大学生活即将结束。回想四年点点滴滴,感受颇深。在此,衷心的感谢所有帮助过我的人。衷心的感谢我的导师叶扩会老师。感谢这一年来,在学习上,对我认真指导,严格要求;在生活上,叶老师给予我无微不至的关心和帮助,并在思想上指导我,教会我许多待人接物和为人处事的道理。在老师的谆谆教诲下,我学到了许多有价值的东西,也看到了自己很多的不足。在我后面的生活与工作中我将不断努力,不辜负叶老师、赵老师、郭老师的期望。本文从选题到写作,都得到了我的导师叶扩会老师的悉心指导。再一次衷心感谢叶老师对我细心的指导,无微不至的关怀和帮助。特别感谢王边疆教授,郭秀清教授,赵为民老师,邢妍老师;杨国翠老师;杨在荣等老师对我的关心和培养。感谢你们对我的谆谆教诲、耐心指导和无私的帮助。感谢我的师兄,师姐及师弟师妹们及我所有的同学们,谢谢你们给予我学习与生上的许多关怀和帮助。感谢我的舍友们,我们一起学习,一起成长,特别感谢她们在论文写作过程中的鼓励和帮助。最后,我还要感谢我的勤劳简朴的父母四年来对我的资助和鼓励,还要感谢我亲戚朋友这几年来一直给予我的理解与支持。陈晓娇2013年6月
链接地址:https://www.desk33.com/p-1062271.html