岭回归解决多重共线性.docx
《岭回归解决多重共线性.docx》由会员分享,可在线阅读,更多相关《岭回归解决多重共线性.docx(12页珍藏版)》请在课桌文档上搜索。
1、一、引言回来分析是一种比较成熟的预料模型,也是在预料过程中运用较多的模型,在自然科学管理科学和社会经济中有着特别广泛的应用,但是经典的最小二乘估计,必需满意一些假设条件,多重共线性就是其中的一种。事实上,说明变量间完全不相关的情形是特别少见的,大多数变量都在某种程度上存在着肯定的共线性,而存在着共线性会给模型带来很多不确定性的结果。二、相识多重共线性(一)多重共线性的定义设回来模型),=&+以+四与+.+用品+假如矩阵*的列向量存在一组不全为零的数ka,k1.,k2勺使得匈+Kxn+fc2xa+勺EP=。,/=1,2,,则称其存在完全共线性,假如ka+kixa+k2x1.2+.+kpx1.pO
2、,i=1.,2,,则称其存在近似的多重共线性。(二)多重共线性的后果1 .理论后果对于多元线性回来来讲,大多数学者都关注其估计精度不高,但是多重共线性不行能完全消退,而是要用肯定的方法来削减变量之间的相关程度。多重共线性其实是由样本容量太小所造成的后果,在理论上称作微数缺测性”,所以当样本容量很小的时候,多重共线性才是特别严峻的。多重共线性的理论后果有以下几点:(1)保持O1.S估计量的B1.UE性质:(2)戈德伯格提出了近似多重共线性其实是样本观测数刚好超过待估参数个数时出现的状况。所以多重共线性并不是简洁的自变量之间存在的相关性,也包括样本容量的大小问题。(3)近似的多重共线性中,O1.S
3、估计仍旧是无偏估计。无偏性是一种多维样本或重复抽样的性质:假如X变量的取值固定状况下,反复对样本进行取样,并对每个样本计算O1.S估计量,随着样本个数的增加,估计量的样本值的均值将收敛于真实值。(4)多重共线性是由于样本引起的。即使总体中每一个X之间都没有线性关系,但在详细取样时仍存在样本间的共线性。2 .现实后果(1)虽然存在多重共线性的状况下,得到的O1.S估计是B1.UE的,但有较大的方差和协方差,估计精度不高;(2)置信区间比原本宽,使得接受“假设的概率更大;3 3)I统计量不显著;(4)拟合优度外的平方会很大:(5) O1.S估计量及其标准误对数据微小的改变也会很敏感。(三)多重共线
4、性产生的缘由1 .模型参数的选用不当,在我们建立模型时假如变量之间存在着高度的相关性,我们乂没有进行处理建立的模型就有可能存在着共线性。2 .由于探讨的经济变量随时间往往有共同的改变趋势,他们之间存在着共线性。例如当经济旺盛时,反映经济状况的指标有可能按着某种比例关系增长3 .滞后变量。滞后变量的引入也会产生多重共线行,例如本期的消费水平除了受本期的收入影响之外,还有可能受前期的收入影响,建立模型时,本期的收入水平就有可能和前期的收入水平存在着共线性。(四)多重共线性的识别1 .宜观的推断方法(1)在自变量的相关系数矩阵中,有某些自变量的相关系数值比较大。(2)回来系数的符号及专业学问或一般阅
5、历相反(3)对重要的F1.变量的回来系数进行t检验,其结果不显著,但是F检验确得到了显著的通过(4)假如增加一个变量或删除一个变量,回来系数的估计值发生r很大的改变(5)市要变量的回来系数置信区间明显过大2 .方差扩大因子法(I)定义W=(I-用尸其中用是以X,为因变量时对其他自变量的复测定系数。一般认为假如最大的WFj超过10,经常表示存在多重共线性。事实上WFj=-10这说明用0.1即写0.9。3 .特征根判定法依据矩阵行列式的性质,矩阵行列式的值等于其特征根的连乘积。因此,当行列式IXX1.gO时,至少有一个特征根为零,反过来,可际应用中无法更好的进一步拟合因变量,偏最小:乘法则是从因变
6、量动身,选择及因变量相关性较强而乂能便利运算的自变量的线性组合。5.岭回来法.岭回来分析是1962年由Heer首先提出的,1970年后他及肯纳德合作,进一步发展了该方法,在多元线性回来模型的矩阵形式Y=X+j参数0的一般最小:乘估计为。=(XX)TXY,岭回来当自变量存在多重共线性XX1.Qo时,给矩阵加上一个正常系数矩阵以,那么夕=(Xx+助xy,当时就是一般最小二乘估计。三、实际的应用我们对于重庆市1987至2019年的统计数据做一个回来预料模型,选取工业总产值为因变量,固定投资总额、货物周转量、财政支出、能源消耗总量四个变量为自变量。设模型为Y=1.1.+1.X1+22+yi+iX4+f
7、(3.1)(一)一般的最小二乘法对模型进行最小二乘估计得到如下的结果:表3.1:模型总结ChangeStatisticsRAdjustStd.ErrorRFModeSquedRoftheSquareChangdfSig.F1RareSquareEstimateChangee1df2Change1.998Q.996.995161.9431718.9961198.108419.000表3.2:方差分析表Mode1SumofSquaresMeandfSquareFSig.Regression1.257E841.3.142E7198.0E300,Residua1.498286.2271926225.5
8、91Tota1.1.262E823表3.3:系数矩阵表ModStd.ErrorBetatSigTo1.eranceV1.Fe1.B1-193.968311.5-.6.5494231X.622.393.4871.5.13.002455.820510X,.025.016.1881.5.13.01568.670394X、1.202.743.3491.6.12.004224.172271i-.030.117-.023-2.79.02737.361772调整的可决系数旅为0.995,F=I198,在置信水平为95%,自由度4,方程通过了显著性的检验,从这里我们可以看出从整体上来说方程得到了很好的拟合,但
9、是各个系数的检验却并没有通过,而且能源消费的系数为负,这于经济学的原理相反,我们初步断定回来的方程可能存在着多重共线性。依据方差扩大因子1.=455.510,WE=68.694,VF,=224.271,K低=37.372.均大于10说明存在多重共线性。此外我们还可以依据共线性的诊断,来推断多重共线性的存在。为此,利用SPSS软件进行相关处理可以得到下表:表3.4:多重共线性诊断表VarianceProportionsModeDimensioEigcnva1.uConditio(Constant1nenIndex)XX?XAX,11.0.0.04.4121.000.00.000002.0.0.0
10、.5682.788.01.000003.0.0.2.01716.264.13.000524.8.0.3.00339.288.25.0007951.0.2.8.3.00171.989.610089从特征值我们可以看到有两个接近于零,条件数我们可以看到最大条件数为71.989,说明存在着共线性,以上的分析说明因变量间存在着多重共线性。(二)运用岭回来解决多事共线性用SPSS软件的岭回来功能的语法实现岭回来,做出的结果如卜.:表3.5:岭参数K值表KX4RSQX1.X2X3.OOOOO.99605.486610.187544.349141022974.05000.99450.298761.23102
11、5.351029.109212.10000.99286.279395.234139.315824.148780.15000.99135.268288.234093.295846.168122.20000.98984.260456.232912.282446.178951.25000.98824.254302.231210.272489.185418.30000.98652.249140.229240.264570.189368.35000.98466.244625.227127.257967.191744.40000.98265.240562.224938.252270193079.45000
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 回归 解决 多重 线性
链接地址:https://www.desk33.com/p-1800549.html