02一元线性回归模型.docx
《02一元线性回归模型.docx》由会员分享,可在线阅读,更多相关《02一元线性回归模型.docx(19页珍藏版)》请在课桌文档上搜索。
1、一元线性回来模型1.一元线性回来模型有一元线性回来模型(统计模型)如下,yl=fii+xl+U1上式表示变量M和为之间的真实关系。其中M称被说明变量(因变量),汨称说明变量(自变量),出称随机误差项,图称常数项,加称回来系数(通常未知)。上模型可以分为两部分。(1)回来函数部分,E=向+用必(2)随机部分,Ui图2.1真实的回来直线这种模型可以给予各种实际意义,收入与支出的关系;如脉搏与血压的关系;商品价格与供应量的关系;文件容量与保存时间的关系;林区木材采伐量与木材剩余物的关系;身高与体重的关系等。以收入与支出的关系为例。假设固定对一个家庭进行视察,随着收入水平的不同,与支出呈线性函数关系。
2、但事实上数据来自各个家庭,来自各个不同收入水平,使其他条件不变成为不行能,所以由数据得到的散点图不在一条直线上(不呈函数关系),而是散在直线四周,听从统计关系。随机误差项,中可能包括家庭人口数不同,消费习惯不同,不同地域的消费指数不同,不同家庭的外来收入不同等因素。所以在经济问题上“限制其他因素不变”是不行能的。回来模型的随机误差项中一般包括如下几项内容,(1)非重要说明变量的省略,(2)人的随机行为,(3)数学模型形式欠妥,(4)归并误差(粮食的归并)(5)测量误差等。回来模型存在两个特点。(1)建立在某些假定条件不变前提卜抽象出来的回来函数不能百分之百地再现所探讨的经济过程。(2)也正是由
3、于这些假定与抽象,才使我们能够透过困难的经济现象,深刻相识到该经济过程的本质。通常线性回来函数E(M)=向+因为是视察不到的,利用样本得到的只是对E(y,)=A)+4的的估计,即对向和向的估计。在对回来函数进行估计之前应当对随机误差项场做出如下假定。(1),是一个随机变量,,的取值听从概率分布,E(%)=0。(3) D(m,)=Eut-E(U1)2=E(Mr)2=Cr2。称出具有同方差性。(4) %为正态分布(依据中心极限定理)。以上四个假定可作如下表达。%N(0,2)o(5) Cov(mi,Uj)=E(ui-E(Ui)(M7-E(wz)=E(wf,uj)=0,(Jj)。含义是不同观测值所对应
4、的随机项相互独立。称为出的非自相关性。(6) H是非随机的。(7) Cov(w,Xi)=E(m,-E(wr)(Xi-E(Xf)=Ewf(xi-E(xl)=Ew1X1.ME(M)=E(wfH)=0.如与Xi相互独立。否则,分不清是谁对M的贡献.(8)对于多元线性回来模型,说明变量之间不能完全相关或高度相关(非多重共线性)。在假定(1),(2)成立条件下有E(M)=E(y%+用为+%)=为+xt2.最小二乘估计(O1.S)对于所探讨的经济问题,通常真实的回来直线是观测不到的。收集样本的目的就是要对这条真实的回来直线做出估计。怎样估计这条直线呢?明显综合起来看,这条直线处于样本数据的中心位置最合理。
5、怎样用数学语言描述“处于样本数据的中心位置”?设估计的直线用yl=o+A为表示。其中必称M的拟合值(fittedvalue),瓦和A分别是为和用的估计量。观测值到这条直线的纵向距离用力表示,称为残差。yt=yt+ul=o+fixt+ut称为估计的模型。假定样本容量为兀(1)用“残差和最小”确定直线位置是一个途径。但很快发觉计算“残差和”存在相互抵消的问题。(2)用“残差肯定值和最小”确定直线位置也是一个途径。但肯定值的计算比较麻烦。(3)最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较便利外,得到的估计量还具有优良特性。(这种方法对异样值特别敏感)设残差平方和用Q表
6、示,TQ=i=(j-)2=(yz-3j2,=l/=1/=I则通过。最小确定这条直线,即确定瓦和总的估计值。以瓦和自为变量,把。看作是瓦和自的函数,这是一个求极值的问题。求。对瓦和总的偏导数并令其为零,得正规方程,C单=2它(%-瓦-/内)(-1)=0(1)IBO1=1,Z(Z-工汽TT因为ZH(H-9)=0,Yx(Xl-X)=0,分别在f=lr=lTZfa-H)得,f=l,Z(%-工)%-工(巧-)Z(M-元)(),,-9)ZA-元)2下面用矩阵形式推导aTTBoT+B(Za)=/=I/=IYaTATTI瓦Z巧+自(Z巧2)=Z巧乃MU(7)(8)式的分子和分母上减之元(%-力和J=I(9)(
7、10)ft2xJlJ-J-(;)2.-xt_Za;j1.J1.jvl这种形式在单位根检验的理论分析中特别有用。3.最小二乘估计量瓦和A的特性(1)线性特性这里指Bo和A分别是M的线性函数。0_Z(Z-)(M-冽Z(巧-I)H-H)Z(Z-I)H1 Z(-元)2Z(%-工)2Z(/一工)2令匕=J。,代入上式得(%空)2A=Zktyt可见A是M的线性函数,是四的线性估计量。同理由也具有线性特性。(2)无偏性利用上式E(八)=E(Zktyt)=E即+%)=E(向Zkl+ktxl+ktut)=E夕IZG(XrM)+Zk%二夕I+E(Zklul)=(3)有效性氏,的O1.S估计量的方差比其他估计量的方
8、差小。Gauss-Marcov定理:若W满意E(w,)=0,D(%)=2,那么用O1.S法得到的估计量就具有最佳线性无偏性。估计量称最佳线性无偏估计量。最佳线性无偏估计特性保证估计值最大限度的集中在真值四周,估计值的置信区间最小。上面的评价是对小样本而言,若是对大样本而言还应探讨估计量的渐近无偏性,一样性和渐近有效性。先给出渐近分布的概念。渐近分布。用2N(,)0当Too,Var(x)O.为防止分布发生退化,可以用了乘VaK工)。当Tt8,TTVar(J)2o渐近方差。若上述随机变量序列有渐近期望,同时有新序列,E-x-E(t)2=ETx11-E(x71)2hETx-Ecm)FETxtn-E(
9、x7n)2)满意1.imET(x-E(x7)2=v则定义打的渐近方差为J1.imET(x-E(x)2=TT渐近无偏性。若力的渐近期望为由则/为用的渐近无偏估计量,即1.imE()=一样性若/满意(1)渐近无偏性,(2)1.imYar(3r)=。,则/具有一样性,力为夕的T一样估计量。渐近有效性。若/满意(1)具有一样性,(2)与其他估计量的方差相比,力的渐进方差较小,Var()Var(7-),则称/具有渐近有效性。O1.S估计量都能满意上述渐近特性估计量。留意:分清4个式子的关系。但满意渐近特性的估计量不见得是最佳线性无偏(1)真实的统计模型,(2)估计的统计模型,(3)真实的回来直线,(4)
10、估计的回来直线,yt=o+xt+UtM=瓦+Axt+utE(y,)=氏+xl=+t4. O1.S回来直线的性质(1)残差和等于零,wz=0由正规方程2Z3-瓦-自为)(-i)=o得(y-)=o,-y)=(,r-y)M,=yfw,-yW=m,=m,(+加)=-EG/+AEGrM=O5. M的分布和A的分布依据假定条件rN(O,2)E(Jr)=E(+Xl+Ul)=+Xl+E(ul)=i+XtoVar(V)=Var(%+xf+ut)=Var(向+即)+Var(w,)=2M是,的线性函数,所以MN(o+xh2)可以证明E(八)=Pi,Var(八)=一WdZ(XD总是y的线性函数(81=丘),所以6.
11、2的估计定义2=(Z禹2)/(7-2)其中2表示待估参数的个数。可以证明El/)=。?。拼是的无偏估计量。因为算是残差,所以拼又称作误差均方。可用来考察观测值对回来直线的离散程度。A的估计的方差是春(八)自二瓯、J3),加=W27. 拟合优度的测量拟合优度是指回来直线对观测值的拟合程度。明显若观测值离回来直线近,则拟合程度可以证明(yf-y)2=(yf-y)2+(yf-yl)2=(yl-y)2()2SST(总平方和)=SSR(回来平方和)+SSE(残差平方和)证明(j-J)2=(y-J)+(-j)2=(yr)2+(-y)2+2(yr-.yx)(,y,-y)其中Cy-)(,-j)=O7-)(-)
12、=O7,r)-yf)=Mr=o度量拟合优度的统计量是可决系数(确定系数)。R2=Zd1.=(回来平方和)/(总平方和)=SSR/SST(-y)2所以N的取值范围是0,l0对于一组数据,SSr是不变的,所以SSRt(I),SSEl(t)0SSRi旧指回来平方和(regressionsumofsquares)现指残差平方和(SUmofsquaredresiduals)SSE:旧指残差平方和(errorsumofsquares(sumofsquarederrors),现指回来平方和(explainedsumofsquares)8. 回来参数的显著性检验及其置信区间主要是检验是否为零。通常用样本计算的
13、A不等于零,但应检验这是否有统计显著性。H0:/71=0;H1:加工0在Ho成立条件下,1.K-P_寓_sWSg%-元)2若IfIEag,则0;若IrlVEa(T-2),则Oo还可以利用A估计川的置信区间。由于Pta(2)=-a)由大括号内不等式得用的置信区间A-S(八)g)四自+自)g)其中s,M是/出产_-32的算术根,而其中的3是拼的算术根。1.元)29. W的点预料及其区间预料下面以时间序列数据为例介绍预料问题。预料可分为事前预料和事后预料。两种预料都是在样本区间之外进行,如图所示。对于事后预料,被说明变量和说明变量的值在预料区间都是已知的。可以干脆用实际发生值评价模型的预料实力。对于
14、事前预料,说明变量是未发生的。(当模型中含有滞后变量时,说明变量则有可能是已知的。)当预料被说明变量时,则首先应当预料说明变量的值。对于说明变量的预料,通常采纳时间序列模型。TlT2八(目前)样本区间事后预料事前预料预料还分为有条件预料和无条件预料。对于无条件预料,预料式中全部说明变量的值都是已知的。所以事后预料应当属于无条件预料。当一个模型的说明变量完全由滞后变量组成时,事前预料也有可能是无条件预料。例如当预料TH期的M值时,E用的是T期值,是己知值。预料还分为静态预料和动态预料。(1) yr的点预料。依据估计的回来函数,得yF=A+XF(2)单个的区间预料的分布是N0+由Xf,2(liy-
15、)所以,W的区间预料是(7-2)1+1.孕K1VTX-)(3)E(W)的区间预料E(5)的分布是E(外)N(八)+孙,M()+pW?)二(aT)则E()的区间预料是yrg)S1V(再一幻10.案例:用回来模型预料木材剩余物(file:blc3)伊春林区位于黑龙江省东北部。全区有森林面积218.9732万公顷,木材蓄积量为2.324602亿11森林覆盖率为62.5%,是我国主要的木材工业基地之一。1999年伊春林区木材采伐量为532万n?。按此速度44年之后,1999年的蓄积量将被采伐一空。所以目前亟待调整木材采伐规划与方式,爱护森林生态环境。为缓解森林资源危机,并解决部分职工就业问题,除了做好
16、木材的深加工外,还要充分利用木材剩余物生产林业产品,如纸浆、纸袋、纸板等。因此预料林区的年木材剩余物是支配木材剩余物加工生产的一个关键环节。下面,利用一元线性Fl来模型预料林区每年的木材剩余物。明显引起木材剩余物改变的关键因素是年木材采伐量。给出伊春林区16个林业局1999年木材剩余物和年木材采伐量数据如表2.1。散点图见图2.14。观测点近似听从线性关系。建立一元线性回来模型如下:yt=fii+xf+U1表2.1年剩余物V和年木材采伐量M数据林也局名年木材剩余物v(万nr)年木材采伐量.M万年股36.12风青星营微东新红五友翠好峦驷溪丰岔岭乡山丰针美大南带朗桃双23,4921.9711.53
17、7.186.8018.4311.6927.9912.156.8017.209.505.5248.85.817.O17.327.5501.5.72350*il202.87532.(X)3025201510510203040506070图2.14年剩余物V和年木材采伐量H散点图DependentVariable:YMethod:1.eastSquaresDate:10/09/03Time:15:38Sample:116Includedobservations:16VariableCoefficientStd.Errort-StatisticProb.C-0.7629281.220966-0.624
18、8560.5421X0.4042800.03337712.112660.0000R-squared0.912890Meandependentvar12.67938AdjustedR-squared0.906668S.D.dependentvar6.665466S.E.ofregression.036319Akaikeinfocriterion4.376633Sumsquaredresid58.05231Schwarzcriterion4.4732071.oglikelihood-33.01306F-statistic146.7166Durbin-Watsonstat1.481946Prob(F
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 02 一元 线性 回归 模型

链接地址:https://www.desk33.com/p-1442456.html