SAS软件与统计应用论文.docx
摘要木学期通过对GSAS软件与统计应用这门课的学习,让我知道SAS系统是个大型的应用软件系统,具有完备的数据访问、管理、分析、呈现,以与应用开发功能。这篇文章运用主成分分析综合评价方法,对1999年我国西部地区教化人力资源发展水平进行处理和分析,采纳的是西域,新疆等西部省份教化人力资源发展水平(原始数据见附录)。选出14个省的状况作为统计分析数据,其中分析的项目为:每百万人口学校数;每十万人口毕业生数;每十万人口招生数:每十万人口在校生数;每十万人口探讨生数:每十万人口教职工数:每十万人口专职老师数;高级老师占专职老师的比例;每所学校在校生数:生师比。依次用Al,A2,A3,A4,A5,A6,A7,A8,A9,AlO表示。用“分析家”作主成分分析,并且对数据进行如下处理:第一:对r所选取的统计数据进行简洁描述统计分折,得出数据的平均值、数据标准差,最大值,最小值等。其次:对于所选取的统计数据用“analyst”作主成分分析计算相关系数矩阵的特征值、上下特征值之差、各主成分的方差贡献率、以与累积贡献率。第三:由相关系数矩阵的两个最大特征值的特征向量,可以写出第、其次主成分的得分。第四:在''insight”里面绘制了散点图。由图可知,在散点图越靠向右上角的地区,教化人力资源发展水平越高,越靠向左上角的地区,教化人力资源发展水平越低。从以上结论分析可以知道影响各省份教化人力资源发展水平的主要因素,从而可以更好地帮助国家调整教化人力资源结构,更好地发展我国西部教化事业。关键字:analyst主成分分析教化人力资源发展MEANS过程目录第一章基本介绍11.l探讨目的11.2 采纳方法11.3 理论学问1其次章数据预处理2第三章详细模型23.1 建立数据集23.2 详细模型(程序)4运行结果与分析54.1 运用“分析家”做主成分分析的步骤54.2 主成分的结果分析6参考文献9附录10第一章基本介绍1.1 探讨目的通过SAS软件分析,对1999年我国西部地区教化人力资源发展水平有一个大致J'解。随着国家教化方针的调整,西部各地区为促进本地区的教化发展,分别实行了各种措施,教化方面的发展有了显著地成就。本文通过SAS软件分析,对1999年我国西部地区教化人力资源发展水平有一个大致了解,从而可以更好地帮助国家调整(优化)教化人力资源结构,使人民的受教化水平更加优越。1.2 采纳方法(1)描述性统计量:means0(2)检验:运用analyst模块进行主成分分析。1.3 理论学问MeanS过程(均值过程):用于对数据型变量产生针对单个变量的简洁描述性统计。pr。CmeanS过程时,会对全部数值型变量进行操作,得到各变量的非缺失观测数N,均值MEAN,标准差STDDEV,最大值MaX和域小值Min五种统计值,但means过程可以计算16种统计星。主成分分析:是对于原先提出的全部变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变型在反映课题的信息方面尽可能保持原有的信息。主成分分析是数学上对数据降维的种方法。其基本思想是设法将原来众多的具有肯定相关性的指标(比如P个指标,重新组合成组新的互不相关的综合指标来代替原来指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。在全部的线性组合中所选取的Fl应当是方差最大的,故称Fl为第一主成分。假如第主成分不足以代表原来P个指标的信息,再考虑选取12即选其次个线性组合。为了有效地反映原有信息,Fl已有的信息就不须要再出现在F2中,用数学语言表达就是要求COV(F1,F2)=0d称F2为其次主成分,依此类推可以构造出第三、第四、第P个主成分。其次章数据处理对数据较少的程序,可以用DATA步建立永久的SAS集。永久的SAS集,由定义逻辑库与定义数据集两步完成。逻辑库定义通过1.IBNAME语句完成,数据集定义用DATA语句实现。指定逻辑库的吩咐语句为全程语句,其格式如下:1.IBNAME逻辑库名"路径";指定要建立数据集的吩咐语句格式如下:DT逻辑库名.数据集名;1.IBNAME语句把磁盘中的子书目与用户定义的逻辑库名连接起来.用此方法依据已知的数据就可以建立生成以下的数据集。第三章详细模型3.1建立数据集2012年11月19日星期一卜,午12时19分55秒5ObsregionlA2A3A4A5A6A7A8A9AlO1海南0.66496419112.047192广西0.62416919234.0401830.33山西311310.4500.726111819360.0743040.334092内蒙古10.1700.80467721153.0713250.36四川26177.4300.7566112314164.0773260.39重庆419910.1000.504177211120.0532170.37贵州419210.1000.54286715221.0351680.33云南28238.9500.57386617649.0442090.38西藏307983611.5642651573.96830O.1410陕西10055.1001.19100188496398.014055110.36I甘肃41739.9000.715590246113.065270.3112青海34809.2301.18-196818317.0683413宁更0.92498324225.073330.3326247.52014新瓠0.966611030551.096420.3031807.2303.2详细模型(程序)Datawork,datal;inputregion$1-10AlA2A3A4A5A6A7A8A9A10:cards:海南0.6649641911247190.33291410.16广西0.6241691923440180.33311310.45山西0.72611181936074300.33409210.17内蒙古0846772115371320.3626177.43四川0.756611231416477320.39419910.1重庆0.5417721112053210.37419210.1贵州0.5428671522135160.3328238.95云南0.380.57383079661764944208361西敏0.141.56421005651573.968305.1陕西0.361.191004173188496398140559.9甘肃0.310.715534809024611365279.23青海0.21.18491558681831768345.32宁夏0.330.92492624832422573337.52新疆0.96660.33180run:procprint;run:HO3055196427.23第四章运行结果与分析4.1运用“分析家”做主成分分析的步骤1)在“分析家”中打开数据集Work.datal;2)选择菜单“Statistics(统计)“wMultivariate(多元分析)”wPrincipalComPOnentS(主成分分析)”,打开"PrincipalComponents,对话框;3)在对话框中输入主成分分析的变量,如图4-1;图4T4)单击“Statistics(统计)"按钮,打开uPrincipalComponents:Statisticsn对话框:在"#ofcomponents:,右边的框中指定主成分的个数10,如图4-2,单击“0K”返回;图4-25)单击"SaveData”按钮,打开“PrincipalComponents:SaveData,对话机在该对话框中可选择存储数据。选中“Createandsavescoresdata”,如图4-3所示。单击“OK”返回;图4-36)单击“Plots”按钮,打开*PrincipalComponents:Plots"对话框,可以设置图形输出。在"ScreePlot(碎石图)”选项卡中(图47),选中"Createscreeplot(建立碎石图)”复选框。在"ComponentPlot(成分图)"选项卡中(图4-5),选中wCreatecomponentPlOt(建立成分图)”复选框。图4-4图4-54.2主成分的结果分析输出的数字分析结果包括4个部分:简洁统计量、相关系数矩阵、相关系数矩阵的特征值以与相关系数矩阵的特征向量。1)图4-6给出变量的简洁统计量,图中显示10项指标中A9(每所学校在校生数)、A5(每十万人口探讨生数)、A4(每十万人口在校生数)是最为重要的,其标准差远远高出其他变量图4-62)图4-7可得:A2(每十万人口毕业生数)与A3(每十万人1.l招生数)、A4(每十万人口在校生数)、A6(每十万人口教职工数);A7(每十万人口专职老师数)与A6(每十万人口教职工数与):A4(每十万人口在校牛.数)与A3(每十万人1.l招生数)、A5(每十万人1.I探讨牛.数)有较强的相关性。CorretionIMrlAA2«3A4能ASAllAlAt1.(0lI.3CS41.247?九25G0.1»?0.83110.MC?OM2彻1-.M1t0.4H.nnWA2.3W41.OICrt1.94733113.208o.»w0.8?«3O-IMO0.2185MA3t.24771.34口1.0l0.81B!0.WI20.SII20.23130.S8)1o.>nA4M.2U2.9113I.32W1.0IWe.Me0.W7o.meo.mtO.»«4O.2W2崎1.1»7.9X11.8181.SI5.0)(0o.ni3o.mo.t。.硝I解.5tt?.8>W.Mt70.7t31.0Jlo0.M1S0.(Qlg。抑5.7277A7t.3412.3761Mitt.827S.es13O.I8.o-.czo.mMM«31.UM.«.31230.WI3-.O32o.m1.10100.l2110.H4lA3的-.StK.513113摘I.52Me.e0.«15o.mz.to.euAllAll-JIU,2咯0.4)W.07J?.3g0.774So.e.t图4-73)图4-8给出相关系数矩阵的特征值(Eigenvalues),上下特征值之差(Difference),各主成分的方差贡献率(proportion)以与累积贡献率(Cumulative)图4-8相关系数矩阵的特征值即各主成分的方差,可以看出,第一主成分的方差贡献率为58.54%,其次主成分的方差贡献率为34.40%,第三主成分的方差贡献率为3.05乐说明第一、二主成分方差贡献率已经达到85%以上,可以很好地概括这组数据。在“分析家”左边的管理窗口中双击"Screeplot”项,打开的44Screeplot”对话框显示10个特征值的“碎石图”,很直观地看到第一、二主成分远远大于其它特征值,说明第、二主成分已经代表了绝大部分信息。图4-9依据步骤1-4,在“#ofcomponents:"右边的框中指定主成分的个数2,单击“0K”返回,其他步骤均一样。得到输出结果如图470。图4-104)图4-11给出相关系数矩阵的特征向量,由最大特征值所时应的特征向量可以写出第一、二主成分的表达式。Prinl=O.1O3724A1*+O.399505A2*+0.404750A3*+0.401993A4*+0.380404A5*+0.379236A6*+0.348603A7*+0.137677A8*-0.243l73A9*-0.126794A10*Prin2=-0.508787l*-0.0707462*+0.0015273*-0.0103964*+0.0720455*O.201026A6*O.265655A7*+0.466344A8*+0.415852A9*+0.479168A10*图4-11可见,第一主成分中A2、A3、A4、A5、A6、A7的系数最大;其次主成分中A8、A9、AIO具有较大的正系数,Al则具有较大的负系数。因此,可以把第一主成分看成是由A2(每十万人口毕业生数)、A3(每十万人口招生数)、A4(每十万人口在校生数)、A5(每十万人口探讨生数)、A6(每十万人口教职工数)、A7(每十万人1.J专职老师数)所刻画的反映1999年我国西部地区教学水平的踪合指标;把其次主成分看成是由Al(每百万人口学校数)、A8(高级老师占专职老师的比例)、A9(每所学校在校生数)、Alo(生师比)所刻画的我国西部地区教化发展水平的综合指标。利用特征向量各重量的值可以对主成分进行说明,对于第一、二主成分而言,各变量所占比重如图4T1,且(第主成分各变量对应的比重)均为正数,说明第一,二主成份是对全部指标的一个综合测度,作为综合的信用等级指标。5)在“分析家”窗口中,双击左边项目管理中的“ScoresTablew项,打开“ScoresTablew对话框;选择菜单“File”“SaveasBySASName”,将其保存为数据表Scores:里面包含第一、二主成分的得分。图4-12由图413可知:陕西、四川、新疆的第一主成分取值较高,重庆,广西,云南其次主成分取值较高。结果分析陕西、四川、新疆的第主成分取值较高说明这些地区教学水平较高,其次是山西、甘肃等。由于在其次主成分中AN每百万人口学校数)具有负的载荷量,因此处于右半图中的重庆、四川、广西等地的每百万人口学校数较小,A10(生师比)较大,表明这些地区的教化发展水平较高:而左半图中青海、西藏等地的每百万人口学校数水平较高,A10(生师比)较小,表明这些地区的教化发展水平较低。从以上统计分析可以看出,高等教化人力资源发展水平受地域的影晌很大中部,陕西、四川的教化水平较高。总体上说来,教化人力资源的发展水平与地域的关系为:东高西低,北高南低,四周低于中间,沿海高于内地,中部省区发展水平居中,其中陕西、四川的教化基础好,排名略微靠前。这些统计分析结果与实际状况是相吻合的。从以上分析可以看出,我国高等教化在地域布局上偏重于沿海大城市和中部重要地区,边远地区很少有高等院校分布。这有深层次的经济缘由。我国地域宽阔,资源分布不均,生产力发展不平衡:部地区得天独厚,基础好,发展快:而西部边沿地区经济基础却特别薄弱。经济上的不平衡特征反应在高等教化上表现为地域间存在很大差异,并且这种差异将随着经济差异的扩大而扩大。高等教化水平地域差异的过分扩大将导致高等教化的地区分割与对立。相关部门有必要实行措施逐步缩小这种差距。参考文献1JSAS软件与统计应用教程汪远征,徐雅静,北京机械匚业出版,2007:【2】SAS统计分析与应用,黄燕,机械工业出版社,2006;3:/wenku.baidu/view0IOcc124aaea998fcc220ed3.html附录下表中数据反映了1999年我国西部地区教化人力资源发展水平的相关数据.A1:每百万人口学校数;A2:每十万人口毕业生数A3:每十万人口招生数、A4:每十万人口在校生数、A5:每十万人口探讨生数、A6:每十万人口教职工数、A7:每十万人口专职老师数A8:高级老师占专职老师的比例、A9:每所学校在校生数、A10:生肺比。用统计软件的若干方法分析西部地区的教化人力资源发展状况。regilA2345678910on海南0.6496广西0.6412山西0.7616419112691923411819360474071190.33291410.16180.33311310.45300.33409210.1内蒙0.846772115371320.3626177.43古四川0.76611231416477320.39419910.15重庆0.5417721112053210.37419210.1夷州0.528671522135160.3328238.954云南0.538661764944200.3830798.3671西藏1.542651573.968300.1410055.16陕西1.1100188496398140550.3641739.99甘甜0.71559024611365270.3134809.23青海11.149681831768340.215585.328宁夏0.949832422573330.3326247.522新疆0.9661103055196420.331807.23