岭回归解决多重共线性.docx
一、引言回来分析是一种比较成熟的预料模型,也是在预料过程中运用较多的模型,在自然科学管理科学和社会经济中有着特别广泛的应用,但是经典的最小二乘估计,必需满意一些假设条件,多重共线性就是其中的一种。事实上,说明变量间完全不相关的情形是特别少见的,大多数变量都在某种程度上存在着肯定的共线性,而存在着共线性会给模型带来很多不确定性的结果。二、相识多重共线性(一)多重共线性的定义设回来模型),=&+以+四与+.+用品+£假如矩阵*的列向量存在一组不全为零的数ka,k1.,k2勺使得匈+Kxn+fc2xa+勺EP=。,/=1,2,,则称其存在完全共线性,假如ka+kixa+k2x1.2+.+kpx1.pO,i=1.,2,,则称其存在近似的多重共线性。(二)多重共线性的后果1 .理论后果对于多元线性回来来讲,大多数学者都关注其估计精度不高,但是多重共线性不行能完全消退,而是要用肯定的方法来削减变量之间的相关程度。多重共线性其实是由样本容量太小所造成的后果,在理论上称作''微数缺测性”,所以当样本容量很小的时候,多重共线性才是特别严峻的。多重共线性的理论后果有以下几点:(1)保持O1.S估计量的B1.UE性质:(2)戈德伯格提出了近似多重共线性其实是样本观测数刚好超过待估参数个数时出现的状况。所以多重共线性并不是简洁的自变量之间存在的相关性,也包括样本容量的大小问题。(3)近似的多重共线性中,O1.S估计仍旧是无偏估计。无偏性是一种多维样本或重复抽样的性质:假如X变量的取值固定状况下,反复对样本进行取样,并对每个样本计算O1.S估计量,随着样本个数的增加,估计量的样本值的均值将收敛于真实值。(4)多重共线性是由于样本引起的。即使总体中每一个X之间都没有线性关系,但在详细取样时仍存在样本间的共线性。2 .现实后果(1)虽然存在多重共线性的状况下,得到的O1.S估计是B1.UE的,但有较大的方差和协方差,估计精度不高;(2)置信区间比原本宽,使得接受“假设的概率更大;3 3)I统计量不显著;(4)拟合优度外的平方会很大:(5) O1.S估计量及其标准误对数据微小的改变也会很敏感。(三)多重共线性产生的缘由1 .模型参数的选用不当,在我们建立模型时假如变量之间存在着高度的相关性,我们乂没有进行处理建立的模型就有可能存在着共线性。2 .由于探讨的经济变量随时间往往有共同的改变趋势,他们之间存在着共线性。例如当经济旺盛时,反映经济状况的指标有可能按着某种比例关系增长3 .滞后变量。滞后变量的引入也会产生多重共线行,例如本期的消费水平除了受本期的收入影响之外,还有可能受前期的收入影响,建立模型时,本期的收入水平就有可能和前期的收入水平存在着共线性。(四)多重共线性的识别1 .宜观的推断方法(1)在自变量的相关系数矩阵中,有某些自变量的相关系数值比较大。(2)回来系数的符号及专业学问或一般阅历相反(3)对重要的F1.变量的回来系数进行t检验,其结果不显著,但是F检验确得到了显著的通过(4)假如增加一个变量或删除一个变量,回来系数的估计值发生r很大的改变(5)市要变量的回来系数置信区间明显过大2 .方差扩大因子法(I")定义W=(I-用尸其中用是以X,为因变量时对其他自变量的复测定系数。一般认为假如最大的WFj超过10,经常表示存在多重共线性。事实上WFj=->10这说明"用<0.1即写0.9。3 .特征根判定法依据矩阵行列式的性质,矩阵行列式的值等于其特征根的连乘积。因此,当行列式IXX1.gO时,至少有一个特征根为零,反过来,可际应用中无法更好的进一步拟合因变量,偏最小:乘法则是从因变量动身,选择及因变量相关性较强而乂能便利运算的自变量的线性组合。5.岭回来法.岭回来分析是1962年由Heer首先提出的,1970年后他及肯纳德合作,进一步发展了该方法,在多元线性回来模型的矩阵形式Y=X+j参数0的一般最小:乘估计为。=(XX)TXY,岭回来当自变量存在多重共线性XX1.Qo时,给矩阵加上一个正常系数矩阵以,那么夕=(Xx+助x'y,当时就是一般最小二乘估计。三、实际的应用我们对于重庆市1987至2019年的统计数据做一个回来预料模型,选取工业总产值为因变量,固定投资总额、货物周转量、财政支出、能源消耗总量四个变量为自变量。设模型为Y=1.1.+1.X1+2×2+y×i+iX4+f(3.1)(一)一般的最小二乘法对模型进行最小二乘估计得到如下的结果:表3.1:模型总结ChangeStatisticsRAdjustStd.ErrorRFModeSquedRoftheSquareChangdfSig.F1RareSquareEstimateChangee1df2Change1.998Q.996.995161.9431718.9961198.108419.000表3.2:方差分析表Mode1SumofSquaresMeandfSquareFSig.Regression1.257E841.3.142E7198.0E300,Residua1.498286.2271926225.591Tota1.1.262E823表3.3:系数矩阵表ModStd.ErrorBetatSigTo1.eranceV1.Fe1.B1-193.968311.5-.6.5494231X.622.393.4871.5.13.002455.820510X,.025.016.1881.5.13.01568.670394X、1.202.743.3491.6.12.004224.172271×i-.030.117-.023-2.79.02737.361772调整的可决系数旅为0.995,F=I198,在置信水平为95%,自由度4,方程通过了显著性的检验,从这里我们可以看出从整体上来说方程得到了很好的拟合,但是各个系数的检验却并没有通过,而且能源消费的系数为负,这于经济学的原理相反,我们初步断定回来的方程可能存在着多重共线性。依据方差扩大因子1."=455.510,WE=68.694,VF,=224.271,K低=37.372.均大于10说明存在多重共线性。此外我们还可以依据共线性的诊断,来推断多重共线性的存在。为此,利用SPSS软件进行相关处理可以得到下表:表3.4:多重共线性诊断表VarianceProportionsModeDimensioEigcnva1.uConditio(Constant1nenIndex)XX?XAX,11.0.0.04.4121.000.00.000002.0.0.0.5682.788.01.000003.0.0.2.01716.264.13.000524.8.0.3.00339.288.25.0007951.0.2.8.3.00171.989.610089从特征值我们可以看到有两个接近于零,条件数我们可以看到最大条件数为71.989,说明存在着共线性,以上的分析说明因变量间存在着多重共线性。(二)运用岭回来解决多事共线性用SPSS软件的岭回来功能的语法实现岭回来,做出的结果如卜.:表3.5:岭参数K值表KX4RSQX1.X2X3.OOOOO.99605.486610.187544.349141022974.05000.99450.298761.231025.351029.109212.10000.99286.279395.234139.315824.148780.15000.99135.268288.234093.295846.168122.20000.98984.260456.232912.282446.178951.25000.98824.254302.231210.272489.185418.30000.98652.249140.229240.264570.189368.35000.98466.244625.227127.257967.191744.40000.98265.240562.224938.252270193079.45000.98050.236833.222713.247230193695.50000.97822.233363.220477.242684193798.55000.97581.230101.218244.238524193528.60000.97327.227009.216026.234672192980.65000.97062.224062.213829.231075192222.70000.96786.221240.211658.227690191305.75000.96501.218527.209517.224485190265.80000.96206.215912.207406.221437189132.85000.95903.213385.205328.218526187927.90000.95591.210938.203284.2157361866671853661.0000184034.94948.206258.199296.210473.95000.95273.208564.201973.213056图3.1岭迹图从岭迹图上看,最小二乘的稳定性很差,当&略微增大时,系数有较大的改变。对各个变量分别来看,当*0,X1.X;和X,对于变量有显著性正的影响,X,对于变量有负的影响,从岭回来的角度来看,变量X和X,随着女的增大其系数值快速减小最终趋于稳定,X,随着A的增加改变不大,对于尤讲,当渐渐增大时,由负的影响变为正的影响。由于X和X,的岭参数都快速削减,两者之和比较稳定。从岭回来的角度看,X和X,只要保留一个就可以了。X?和X、的岭回来系数相对稳定。通过分析,确定剔除尤,对剩卜的三个变量进行岭回来。把岭参数步长改为002,范围缩小到0.2,在SPSS中用吩咐生成得到如下结果:表3.6:步长为0.02时的岭参数值表KRSQX1.X2X3.OOOOO.99604.436166.179183.385799.02000.99584.351867.262568.380494.04000.99560.342222.282832.363342.06000.99531.336854.291961.353101.08000.99497.332900.296644.345962.100OO.99457.329612.299105.340458.12000.99410.326701.300300.335921.14000.99357.324028.300709.332019.16000.99297.321521.300600.328527.18000.99231.319135.300137.325355.20000.99159.316844299420.322417由上表可以看到,剔除了X,后岭回来系数改变幅度减小,从岭迹图看岭参数在0.12到0.20之间时,岭参数已基本稳定,当有0.16时,N=O.99297仍旧很大,因而可以选取*0.16岭参数。然后给定,重新作岭回来,计算结果如下:表3.7:k=0.16时的岭回来Mu1.tR.9964780RSquare.9929685c1.jRSqu.9919137SE210.6252025:表3.8:方差分析表dfSSMSva1.ueSinFRegress3.00012529541741765139941.44.000000Residua1.20.000887259.5244362.976表3.9:方程中的变量BSE(B)BSE(B)BetaX1.4110191.0098800.321520841.6010169X2.0399873.0017557.300600422.7755604X31.1311326.0405681.328527227.8823490Constant-451.706605569.6480613.0000000-6.4855589得到对y对,x?和X、的标准化岭回来方程为:P=0.3215X1+0.30C)6X,+O.3285X、(3.2)(41.601)(22.776)(27.882)Ri=0.993F=941.44一般最小二乘法得到的回来方程为F=0.487X,+0.188X2+0.M9X,-0.023X4(3.3)(1.582)(1.570)(1.617)(-0.261)标准化岭回来得到的丁统计量都比O1.S估计显著,因此岭回来得到预期的效果。(三)主成分分析法同样利用SPSS软件中的Ana1.yZe下拉菜单进行主成分分析。可以得到如下结果:表3.10:总的说明方差表CompExtractionSumsofSquaredoncnInitia1.Eigenva1.ues1.oadingstTota1.%ofVarianceCumu1.ative%Tota1.%ofVarianceCumu1.ative%13.92798.16698.1663.92798.16698.1662.0601.49199.657.0601.49199.6573.012.30699.964.012.30699.9644.001.036100.000.001.036100.000由上表可以知道,四个主成分的特征值的最大值为3.927,最小值为0.001;前两个因子的累积贡献率已经达到99.657乐故只须要保留前两个主成分。利用SPSS的主成分分析进入变量计算。对前两主成分作一般最小二乘法:第一主成分7;=0.254X+0.253X?+0.252X、+0.250X,(3.4)其次主成分刀=-I.OI4X1.+O.31.5X,-2.408X1.+3.137X4(3.5)用Y对工、4做一般最小二乘法,得如下回来方程为P=0.9957;-0.087;(3.6)因此,可以得出主成分回来方程为P=O.3339X1+0.2769X2+0.4434X,-0.012X4(3.7)回来方程的的修正的可决系数为0.996。由上面的分析我们看到岭回来和主成分的所得到的结果比较接近,各个系数说明也更加的合理,符合现实意义。五、结论主成分法和岭回来所估计的参数,都已经不是无偏的估计,生成分分析法作为多元统计分析的一种常用方法在处理多变量问题时具有其肯定的优越性,其降维的优势是明显的,主成分回来方法对于一般的多重共线性问题还是适用的,尤其是对共线性较强的变量之间.岭回来估计是通过最小:乘法的改进允许回来系数的有偏估计量存在而补救多重共线性的方法,采纳它可以通过允许小的误差而换取高于无偏估计量的精度,因此它接近真实值的可能性较大。敏捷运用岭回来法,可以对分析各变量之间的作用和关系带来独特而有效的帮助。作为统计方法,每种方法都有其适用范围,我们应当比较其效果而选用而不是断然否定一种方法。参考文献1何晓群.应用回来分析M.中国人民统计高校出版社:2007,(13).2钱晓莉.基于特征值的多重共线性处理方法J.统计与决策:2004,(10).3白雪梅,赵松山.更深化地相识多重共线性J.东北财经高校学报:2005,(02).4赵松山,白雪梅.关于多重共线性检验方法的探讨J.中国煤炭经济学院学报:2001,(04).5高辉.多重共线性的诊断方法J统计与信息论坛:2003,(01).6达摩达尔.N.古扎拉蒂.计量经济学M.中国人民高校出版社:2019,(6).7薛薇.SPSS统计分析方法及应用M.电子工业出版社:2009,(1).8秦红兵.多元回来分析中多重共线性的探讨与实证J.科技信息:2007,(31).9柳丽,魏庆皱.回来分析中多重共线性的诊断及处理J.中国卫生统计:1994,(11).10 JohnS.Y.Chiu.Simu1.ationStudyofEffectsofMu1.tico1.1.inearityandAutocorre1.ationonEstimatesofParametersJ.TheJourna1.ofFinancia1.andQunntitative力"apss:1996,(6).11 MarkZ.Fabrycy.Mu1.tico1.1.inearitycausedbySpecificationErrorsJ.App1.iedStaejSics:1975,(4).12jNityanandasarkar.MeansquareerrormatrixComparisionofsomeestmatorsin1inearregressionswithmui1.1.inearityj.StatisticsandProbabi1.ity1.etters',1996,(10).