多元线性回归模型及假定.docx
第三章多元线性回归模型基本要求:1、理解多元线性回归模型的定义2、理解多元线性回归模型的假定3、掌握参数估计的计算4、理解参数统计性质第一节多元线性回归模型及假定一、多元线性回归模型许多经济现象往往要受多个因素的影响,研究被解释变量受多个解释变量的影响,就要利用多元回归模型。多元线性回归模型与一元线性回归模型基本类似,只不过解释变量由一个增加到两个以上,被解释变量丫与多个解释变量X/X2,浜之间存在线性关系。假定被解释变量y与多个解释变量X/X2,.,无之间具有线性关系,是解释变量的多元线性函数,称为多元线性回归模型。即y=Po+PiXi+P22+BE+N(3-D其中Y为被解释变量,为。=1,2,闺为A个解释变量,PjO=0,2,为4+1个未知参数,N为随机误差项。.被解释变量丫的期望值与解释变量X/X2,.,M的线性方程为:E(Y)=Po+PX+P2X2+Pm(3-2)称为多元总体线性回归方程,简称总体回归方程。对于组观测值匕,Xk,X2i,M(i=l,2,.,初其方程组形式为:Y=Po+P1X+P2X2i+P出+也=1,2,«)(3-3)y=P+PX+PX+PX+Ny=P°+P%y+p22+.+£,+62O112222kk22Y=Po+PiXI+P2X2+Pm+6其矩阵形式为YIY9X11X12X21X22*_nY-kY2rDOP1n2+AA11X1»X2nXknPA(3-4)其中YIIl21JtrlYTXXXY=2为被解释变量的观测值向量;X-1222Q为解释变量的观测/1*1Jl+n-1XXX1 n2nkn-从,一、为总体回归参数向量;N=.2为随机误差项向量。71X1总体回归方程表示为:(3-5)与一元线性回归分析一样,多元线性回归分析仍是根据观测样本估计模型中的各个参数,对估计参数及回归方程进行统计检验,从而利用回归模型进行经济预测和分析。多元线性回归模型包含多个解释变量,多个解释变量同时对被解释变量y发生作用,若要考察其中一个解释变量对丫的影响就必须假设其它解释变量保持不变来进行分析。因此多元线性回归模型中的回归系数为偏回归系数,即反映了当模型中的其它变量不变时,其中一个解释变量对因变量丫的均值的影响。由于参数P,p,外,P都是未知的,可以利用样本观测值(,X2i,XhJ)对它们进行估计。若计算得到的参数估计值为P工p,P,用参数估计值替代总体回归函数的未知参数oi2*Po,PjP2,Pa,则得多元线性样本回归方程:Ay=P+PX+Px+Px(3-6)其中Pjj=o,2,Q为参数估计值,y=,2,用为丫的样本回归值或样本拟合值、样本估计值。其矩阵表达形式为:y,其中Y×lXX1121XXn22Jl x(+OX X In 2nB为被解释变量样本观测值向量v的Xl阶拟合值列向量;XklXA2为解释变量X的X(A+1)阶样本观测矩阵;XknzD%vx1为未知参数向量P的(&+l)x1阶估计值列向量。样本回归方程得到的被解释变量估计值),与实际观测值),之间的偏差称为残差6。4eyyy(8BxBBX)(3-8)二、多元线性回归模型的假定与一元线性回归模型相同,多元线性回归模型利用普通最小二乘法(OLS)对参数进行估计时,有如下假定:假定1零均值修定:E(N)=OJ=1,2,«,即E(N)假定2同方差假定(R的方差为同一常数攵):W(N)E(Ni)O2,(/1,2,/?)假定3无自相关性:.CoJ,N)E(NN)0,(J中j,i,j=T2,n)JE(W)En(;)2“E(;2)1E(;)21=°(3-10)假定4随机误差项从与解释变量!不相关(这个假定自动成立):Cov(X,;i)=0,(/=1,2,-,kJ=1,2,,n)假定5随机误差项从服从均值为零,方差为。2的正态分布:N-N(0,O假定释变量之间不存在多重共线性:rank(X)=k+<n即各解释变量的样本观测值之间线性无关,解释变量的样本观测值矩阵X的秩为参数个k+1,从而保证参数b'b,P的估计值唯一。第二节多元线性回归模型的参数估计及统计性质一、多元线性回归模型的参数估计(一)回归参数的最小二乘估计对于含有女个解释变量的多元线性回归模型=P+PX+PX+PX+;(/=1,2,(01lf22ikkiin)设,PJ,£分别作为参数Pn,B::,P的估计量,得样本回归方程为:。1k01k=P+PX+PX÷+Bx/0Ii 2kki-(P P XP P X)HiO由最小二乘法可0f,B,B,XT>2Z sP (KP .p ,p0X.2ZX-P X )(-1)=0-p kki)( X) = Q黑=Z(KB 邛 X-8 XsP I 1;-P kxki)(-XJ = 0观测值Y与回归值Y的残差e为:YYY12ikiki回归值Y的残差C的物和最小,P应使全部观测值Y与1kiii.,B)Ze)Z(yY)2iHXPXPX)21 It2Iu取得最小值。根据多元函数的极值原理,Q分别对p,p;J求一阶偏导,并令其等于零,即Oi*(3-12)SQ,-Q=0,(/=1,2,2)sp化简得下列方程组叩+PZx+pZx÷+8ZXZ Xly(3-13)1”21»-h、XX+DXdC7v7v>076zx+8zxx+8zxx+8IO.1Iikil2ikik上述(Z+1)个方程称为正规方程,其矩阵形式为nZXZXZp(3-14)ZXZxZ2,XX0ZxynijIiHEkipIiiZxZXIXZX2XZXzyKUki9因为nEXUExki-1lIrkiXxx21X22X*2XYUiexJkitX kExEXxiXInX2nX.kn1X12X222 HiIlX12XInXInX2n XXEkiX21X22X2nXXX尊IikiBOp1为估计值向量B2样本回归模型Y=Xp+e两边同乘样本观测值矩阵X的转置矩阵X',则有XY=X,Xp+得正规方程备、XY=(3-15)X,Xp由假定,R(X)=k+l,X'X为(Z+1)阶方阵,所以XX满秩,X'X的逆矩阵(X'X)存在。因而p(X,X)-(3-16)XY则为向量P的OLS估计三.成三元线性回归模型为例,导出二元线性回归模型的OLS估计量的表达式。由(3-3)式得二元线性回归模型为y=Bo+B1X+B2Xz+N为了计算的方便,先将模型中心化。X=IZX,XmX-X,(j='2)jnr=lnr三l1.Z,(p,q1,2)=zx>yii(j=1,2)1.1.YYBPxPx则二元回归模型改写为中心化模(3-17)型。an0L XIl 21XX =XX2/ItXPiXIfi,(p, q 1,2)代入得aoP1Po Z, Elili Xi 2irZ Y Z xY ZJy-2n-(3-18)XX =00LLii12LL2122(3-19)因为ZxJZx一(+%£i=lilrZxr=l=L ,(/=1,2)jy(3-20)由(3-16)式得ZyXY= l iLL2 YP = (XfX)-iXT= nO(3-21)L-i = ii 12二22LL LL -L LLLLI2 j11 22122112由(3-21)式可知=F(3-22)(3-23)贝IJ(二)随机误差项N的方差Pi的估计量(3-24)样本回归方程得到的被解释变量估计值区与实际观测值y之间的偏差称为残差e /J1e=y-9=y-(B+8x+8x+ +p x)11/212ie=Y-Y=Y-Xp=(Xp+ji)-X(X,X)-iXT二(XP+1)-X(X,X)-1X(XO+g)=XP+H-XP+(XX)X>=(I-X(XX)X4=Iix(x,x)-ix,m设P=I-X(XX)X,可以得出P是阶对称幕等矩阵,P=P',P2=Po于是e=P2而残差的平方和为工e=e,e=(Pp),(Pp)=yP,Pp=pPp=p,IX(XX)X'pE(e,e)=Ep,I-X(XX)-X>p)“=O2trl-X(XX)-IXIJn=OiyrI-7rX(XX)-X=O2n-(k+1)R其中“行”表示矩阵的迹,即矩阵主对角线元素的和。于是02'-,=ECee_>.R(k+1)In随机误差项R的方差。2的无偏估计量,记作S2,即E(S2尸。2,S2=旨2,S为残差的RC(*R«Re标准差(或回归标准差)。因此工区e'eS2=(3-25)en-kn-k其中八-八62=e,e=(Y-X),(Y-XO)aA=YY-20XY+PXXO=YY-20,XY+B,X1X(X1X).IXY=YY-BXY(3-26)例如,对于二元线性回归模型=2)e'eZ/(3-27)S2=-Ien3n-3e-ee-LSL-BLYYHy22Y(3-28)二、估计参数的统计性质1、线性性指最小二乘估计量p是被解释变量的观测值Ky,丫的线性函数。I2火由于o二(XX)ay设P=(XX)-/X,则矩阵P为一非随机的(A+l)x阶常数矩阵。所以.O=PY(3-29)显然最小二乘估计量o是被解释变量的观测值匕匕,丫的线性函数。122、无偏性将Y=XO+2代入(376)式得0=(XXaXX。+Q=(XX)Txx+(xrx)T孙=0+(x,X)TX(3-30)Eg)=O+£(XX)-1X,N=0+(xrxAXE3)一0所以o是0的无偏估计量。3.最小方差性设P为XP阶数值矩阵,X为PX阶随机矩阵(随机变量为元素的矩阵),Q为X阶数值矩阵,则E(PXQ)=P(E(X)Q下面我们推导。的方差、协方差矩阵。定义:VaG=E陨-0)6-0)由(3-30)式得(p-所以P -POOB -PVar ()、LOu)Cov 节,PCov p7nr1CovS. f),Cov)/ ,P OJtCov节,P、(,).X,Hp)(x'XyX :X(XX )-Var=E(X,X)-iXX,(,X)-i二(XX)TXE(m)x(x,XA=(xx)X,O21X(XX)IN"=O2(X,X)-1N(3-31)这个矩阵主对角线上的元素表示P的方差,非主对角线上的元素表示P的协方差。例如口.(%中2(的第7行与第/列交叉处的元素往对角线上的元素兀3B)是位于K的第2行与第/列交叉处的元素(非主对角线上的元素)在应用上,我们关心的的方差,而忽略协方差,因此把(3-31)式记作VcuG=o2(XX)-1-Iol)(3-32)记S&卜儿.Q,匚O,I,2,幻,则P<=O2CRBV-var口性无偏估计。这说明,在(3-1)式系数的无偏估计量中,OLS估计量的方差比用其它估计方法所得的无偏估计量的方差都要小,这正是OLS的优越性所在。用S2代替。2则得P.的标准估计量的估计值,乃称为标准差。其中=ffS2对于二元回归模型a=2),求估计量(3,B的方差,由(3-32)式得i2V(力=O2(x%j0U其中22于是VarCT叫aLL-1.2Il22121.22-L-L所以1.1.L-Inii22i2其中S(L-LS22LL-L2eiii79i?(3-34)(3-35)(3-36)(3-37)第三节显著性检验一、拟合优度检验(一)总离差平方和分解设具有k个解释变量的回归模型为r=O+pX+pX+0X+/O11/Iikkii其回归方程界y%+0X+0X9"i01h221s*h离差分解:Y-Y)+Y-)总离差平方和分解式为:£ O -Y)=Zy-Y)+EjY-Y>(3-38)(3-39)TSS=ESS+RSS总离差平方和分解为回归平方和与残差平方和两部分。(二)样本决定系数对于多元回归方程,其样本决定系数为复决定系数或多重决定系数。R2t(i=1,2,k),简记为r20(3-41)YXncESSR2=TSS(3-40)根据式(3-39)R2=1rsTSS因为TSS=Eg-Y)=EY2-nY2ii由(3-26)式知RSS=YYpXY所以人ESS=TSS-RSS=B'XY-nYBXY-丫2YY-nY&作为检验回归方程与样本值拟合优度的指标:RYO<R2<1)越大,表示回归方程与样本拟合的越好;反之,回归方程与样本值拟合较差。具体的,当k=2时,求样本决定系_数ZyY)Zy2-XC2R-XGtYXy2.由2,式,得Xe厂却一匕勺一3z,因此有0L+0L(3-43)R?=,2-1.YY(三)调整后的样本决定系数在使用R2时,容易发现R2的大小与模型中的解释变量的数目有关。如果模型中增加一个新解释变量,总离差TSS不会改变,但总离差中由解释变量解释的部分,即回归平方和ESS将会增加,这就是说R2与模型中解释变量个数有关。但通过增加模型中解释变量的数目而使R2增大是错误的,显然这样R2来检验被回归方程与样本值拟合优度是不合适的,需要对R2进行调整,使它不但能说明已被解释离差与总离差的关系,而且又能说明自由度的数目。以R2表示调整施锁定升我-件(3-44)其中X62Xf/,S2二一enP-1这里Z-/是残差平方和的自由度,/是总离差平方和的自由度。由(3-44)式得_e2n1n1R21-VAUX*'/-k-/?2/其中,是样本观测强t个数,&是解释变量的个数。从式中可以看出,当增加一个解释变量时,由前面分析可知R2菊K起1%)瀛少,而鼻增加因需心不会增加。这样用R2判一1定回归方程拟合优度,就消除了上对解释变量个数的依赖。R2或R2只能说明在给定的样本条件下回归方程与样本观测值拟合优度,并不能做出对总体模型的推测,因此不能单凭R2或R2来选择模型,必须对回归方程和模型中各参数的估计量做显著性检验。二、方程显著性检验由离差平方和分解(3-39)式可知,总离差平方和TSS的自由度为-1,回归平方和ESS是由Z个解释变量X”X2,,X,对的线性影响决定的。因此它的自由度为比所以,残差平方和的自由度由总离差平方和的自由度减去回归平方和的自由度,即为-A-Io检验回归方程是否显著,第一步,作出假设备择假设H1:'、2、,不同时为0第二步,在“。成立的条件下,计算统计量”ESSk,Fktnk一1)RSS(n-k-第三步,查表临界值对于假设“。,根据样本观测值计算统计量产给定显著水平a,查第一个自由度为火,第二个自由度为一的尸分布表得临界值几一kl)。当FFMZ-I)时,拒绝"o,则认为回归方程显著成立;当/<e,一hl)时,接受Ho,则认为回归方程无显著意义。三、参数显著性检验回归方程显著成立,并不意味着每个解释变量x,X2,X对被解释变量的影响都是重要的。如果某个解释变量对被解释变量,的影响不重要,即可从回归模型中把它剔除掉,重新建立回归方程,以利于对经济问题的分析和对厂进行更准确的预测。为此需要对每个变量进行考查,如果某个解释变量X对被解释变量,的作用不显著,那么它在多元线性回归模型中,其前面的系数可取值为零。因此必须对(U是否为零进行显著性检验。由(3.44)式SG)=6G尸广iiHe(3-45)其中e,eS2=en-k-对回归系数P进行显著性,检验,步骤如下:i(1)提出原假设“o:P,=O;备择假设Hi:POo=ISP1,(-上1)。这里5攵)构造统计量t=,"当Pr=O成立时,统计量tP的标准差,左为解释变量个数,计算由式(3-45)给出。i给定显著性水平。,查自由度为-%-/的,分布表,得临界值“-上1)。a2若Irl>5HL1),则拒绝"0:P,=0,接受多邛/0,即认为P,显著不为零。若2V<ra6-it-l),则接受”o:PL0,即认为P,显著为零。2四、利用多元线性回归方程进行预测对于多元线性回归模型Y=Po+PX+P2X2+PiXfa+比=x+'其中/、I,X=G,XXz,X),0=(Po,PjPk)',(Z=1,2,n)根据样本观测值QX/2i,,芍力(i=12利用最小二乘法求得回归方程=xOII预测就是给解释变量某一特定值Xo二G,Xo,X20,Xo)对被解释变量的值匕)进行估计,了作为1的预测值。设=Y_Y称其为预测误差。6。为_随机变量,可以证明e°服从正态nn分布,即eNB,02,+X(X,X%X,>>0日00将式中。;用它的估计值S;代替,则得先的标准差。,)Oe)=S力+x(X,X)-1X'OC00其中e,eS一:enn一k一1统计量人yYO对于给定置信水平l-a,预测值K)置信区间为Yt.6fe)<Y<Y+16(e)Oa2OOOa2O即为Y-/SJl+x(,X)-X,<EYXKy+75vl+x(x,Xj-iX,Oa2。000Oa2d00五、多元线性回归分析实例第四节最大似然估计一、似然函数(一)基本假定对于所研究的模型Y=xp+N,给定如下基本假设:日N(0,621)R(2) CoV(Xh匕)=0,(i=1,2,=1,2,-)PG)二k(4)随机抽样总是生产单一的最可能结果:任意样本都是其所属总体的代表。这个强假定是针对小样本而言的。(二)似然函数确定随机变量V的任一观测样本的联合概率的函数,就称为Y的似然函数。一般表达式为:1(Y-xP),(YxP)262(3-47)1.(Y;xp:621)=P(Y)=-exp二、极大似然估计法的基本思想极大似然估计法(maximumIikeIihoodestimation,MLE)需要对随机扰动项的分布做出假定,通常选择正态分布假定。在极大似然估计中,假定样本是固定的,个观测值都是独立观测的,这个样本可由各种不同的总体生成,而每个样本总体都有自己的参数。那么在可供选择的总体中,哪个总体最可能生成所观测到的个样本值?为此需要估计每个可能总体取得这个观测值的联合概率,选择其参数能使观测样本的联合概率最大的那个总体。三、线性回归模型的最大似然估计一元随机扰动变量的正态分布密度函数为(3-48)PQ)=_expJ172g2O2I四四相互独立用多元随机扰动变髯的正有分布零度为pQ)=pq,11,B)=pXzMPQ)exp(3-49)定义被解释变量的概率密度函数,要根据V与N的关系进行变换式中的而是N的偏微分矩阵的行列式的绝对值,该值就是Jacobean变换行列式的绝对值一1一2mlmzaY2对于上面所研究的线性回归方程来说,JaCobean矩阵为单位矩阵,相应行列式值是1。因而y的似然函数)=pq)1.(Y;Xp,02l)=P<Y>=e-eexp(Y-xp11Y一XP)(3-50)八20N匕兀O?/IU2设9=b,02J求似然函数的极大值;L二OR决由于InL是L的单调函数,所以使InL极大的参数值也将使L极大,即SGnL)a=(iD×aLa)=Oo简化似然函数为对数表达式,为:InL=-nIn(2兀)-nIn(O2)-£-(Y-XO)(Y-XO)22r202R求上式对0和O2的偏导数,并令其等于零,可以求出有关估计参数B和S2。RCUj12X,Y+2X'X0)=-(X'Y-X1XO)=02SSqnL)2S2印a(in0l上+击(丫-X0-X0,这k+1个方程的解为0=(XX)X1Y(3-51)(3-52)(3-53)eeS2=nE(Si) = En-k显然,参数估计式。是0的无偏估计式,而S2则是O2的小样本有偏估由于计式,。2,所以S2是。2的渐近无偏估计式。RR本章小结:本章重点研究了一个经济变量受多个因素影响的多元线性回归模型。介绍了多元线性回归模型的建立及其假定条件,应用普通最小二乘法进行多元线性回归模型的参数估计及参数的统计性质和回归方程的显著性检验,利用实例讲述了计量经济学软件包EViews在多元线性回归分析中的应用;最后介绍了最大似然估计法,拓宽模型回归参数估计的思路。