第10章线性回归分析.ppt
《第10章线性回归分析.ppt》由会员分享,可在线阅读,更多相关《第10章线性回归分析.ppt(113页珍藏版)》请在课桌文档上搜索。
1、第10章 线性回归分析,例 设一个质点作匀速直线运动,其位移可以表示为S=+t。但在实验中由于受到环境等干扰因素的作用,在每一个时刻,人们观察到的不是准确的位移,而是具有误差S+,记这一观测值为Y,则所有观察数据满足,注意到各误差实际无法确切地知道,因此要确定质点的运动规律,需要使用回归分析的方法。,更一般地,回归分析在经济管理中常被用来分析变量之间的非确切对应的关系。,例 用来评价商业中心经营好坏的一个综合指标是单位面积的营业额,它是单位时间内(通常为一年)的营业额与经营面积的比值对单位面积营业额的影响因素的指标有单位小时车流量、日人流量、居民年平均消费额、消费者对商场的环境、设施及商品的丰
2、富程度的满意度评分这几个指标中车流量和人流量是通过同时对几个商业中心进行实地观测而得到的而居民年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意度评分是通过随机采访顾客而得到的平均值数据,设各指标(变量)的变量名分别为:单位面积营业额:y,每小时机动车流量:x1,日人流量:x2,居民年消费额:x3,对商场环境的满意度:x4,对商场设施的满意度:x5,为商场商品丰富程度满意度:x6,问题:对单位面积营业额的影响因素确实是如下6个吗?单位小时车流量、日人流量、居民年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意度评分。,不确定型的函数关系,在社会经济和管理中,变量之间的关系更
3、经常地表现为不确定的函数关系。如,销售量与人口数量,销售量与广告费用,收入与受教育水平,。,它们之间存在着明显的相互关系(称为相关关系),但这种关系又不像数学里常用到的确切的函数关系。,回归分析是研究随机变量之间相关关系的一种统计方法,其用意是研究一个被解释变量(因变量)与一个或多个解释变量(自变量)之间的统计关系。,例:宝丽来公司,宝丽来公司是即时显影技术的开拓者,并保持着技术领先地位。自公司成立以来,就不断地在化学、光学和电子学方面进行试验和发展,以生产具有更高品质、更高可靠性和更为便利的摄影系统。,在宝丽来的感光实验室中,科学家们把即时显像胶片置于一定的温度和湿度下,使之近似于消费者购买
4、后的保存条件,然后再对其进行系统的抽样和分析。他们选择了专业彩色摄影胶卷,抽取了分别已保存113个月不等的胶卷以便研究它们保存时间和感光速率之间的联系。数据显示,感光速率随保存时间的延长而下降。它们之间的变动关系可用一条直线或线性关系近似表示出来。,y胶卷感光率的变动,x胶卷保存时间(月),从这一方程可以看出,胶卷的感光速率平均每月下降7.6个单位。通过此分析得到的信息,有助于公司把消费者的购买和使用结合起来考虑,调整生产,提供顾客需要的胶卷。,运用回归分析,宝丽来公司建立了一个方程式,它能反映胶卷保存时间对感光速率的影响。,例:收入与食品消费,人均收入X与人均食品消费支出Y之间的散点关系可以
5、如下图表示出来,根据散点图,我们有可能找到一条直线,从“平均”的角度来反映两个变量之间的关系。,从经济意义上看,这里人均收入可以作为解释变量(解释人均食品支出的变化。,这时,两个变量之间的不确定关系,可以用下式表示:,其中,人均食品消费支出Y是被解释变量,人均收入X是解释变量,1,2是两个待估计的参数,分别表示截距和斜率(反映了关于X的边际效益)。u是随机干扰项,通常假设它与X无关,它反映了Y被X解释的不确定性。,如果随机干扰项u的均值为0,那么上式两边在X的条件下求均值,就有,反映了从“平均”角度看的确定的函数关系(解释关系)。,例 一个假想的社区有100户家庭组成,要研究该社区每月家庭消费
6、支出Y与每月家庭可支配收入X的关系。即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。,收集了这100户家庭收入与消费支出的数据后,发现可将该100户家庭组成的总体按可支配收入水平划分为10组,具体数据见下表。,如 E(Y|X=800)=605,例 多孩率与人均收入,不同地区的多孩率与人均国民收入之间的散点图为,同样有可能找到一条曲线,从平均的角度来反映两个变量之间的关系。,这里仍然将人均国民收入作为解释变量。,这时两个变量之间的不确定关系可以大致用如下包含对数的函数关系表示:,其中多孩率Y是被解释变量,人均国民收入X是解释变量,1,2是两个待估计的参数。但是2不再表示边际效益
7、,而是表示当X增加百分之一时,Y的增加值。u是随机干扰项,仍假设它与X无关,从而与 ln X 无关。,注意此时Y与X的关系并非线性关系,但经变换,就转化为线性关系:,10.1 一元线性回归,10.1.1 问题的提出,上面的这些例子中反映一个变量(被解释变量)的变动可以被另一变量(解释变量)来解释的变量之间的关系的表达式,就是最普通的线性回归式。经济与管理中广泛利用线性回归式来研究变量之间的解释关系。,线性回归的任务,就是用恰当的方法,估计出参数1,2,并且使估计出来的参数具有良好的统计性质,由此可见,回归问题实际上是一种特殊的参数估计问题。,变量X,Y之间成立的关系式对它们的每对对应的样本值都
8、成立,因此对任一对样本值Xi,Yi,i=1,2,n,有,估计参数的目的就是求参数的估计值,使得直线(称为线性回归方程),最好地拟合了这些样本数据点,并且参数估计值还具有较好的统计性质。,10.1.2 高斯基本假设,对于线性回归模型,高斯基本假设为:,(1)ui为随机变量;,(2)E(ui)=0,即所有的随机扰动项的期望值为零;,(3),即所有的随机扰动项的方差等于一个常数;,(4);这等价于,即所有不同的随机扰动项的协方差等于零,也就是不同的随机扰动项是不相关的。,(5)即随机扰动项都服从正态分布。,(6)E(Xi uj)=0 对所有的i和j都成立。,关于解释变量Xi的这一性质可以分为两种情况
9、:,Xi是随机变量但它与uj无关,因此(6)成立。,Xi是确定型变量,它自然与uj无关,因此(6)成立。,介绍了参数估计方法后,再具体说明这些假设的应用。,10.1.3 普通最小二乘法(OLS:Ordinary Least Square),对线性回归模型,回归分析的任务就是要求参数的估计值,使得到的回归方程,最好地拟合了所有样本数据点。,Xi,Yi,这意味着对所有的样本点(Xi,Yi),都应尽可能小。,为了使得回归直线 最好地拟合所有样本数据,就应该使所有残差 绝对值都尽可能小。,具体地做法是让残差的平方和达到最小,这就是所谓的最小二乘准则。,最小二乘准则:,最小二乘法就是根据最小二乘准则来确
10、定 1,2 的估计值 的方法。相应的估计量称为最小二乘估计量(OLS估计量),注意到,因此,为此,我们求参数的估计值 使残差平方和,达到最小。注意到上式可以看成 的二次函数,因此其最小值存在,取最小值的条件就是,由此得到关于 的线性方程组,解之得,其中xi,yi分别为Xi,Yi的中心化数据(也称离差),在高斯的基本假设下,按上式计算得到的参数估计值 是最优的线性无偏估计量(BLUE,Best Linear Unbiased Estimator)。即OLS估计量 是线性估计量并且是无偏的,在所有的无偏估计量中,的方差是最小的。,具体来说,模型是线性的,是线性的,假设(2)、(6),是无偏的,假设
11、(3)、(4),具有最小方差,注:对于 是BLUE来说,(5)是不必要的。但是如果(5)成立,则还能保证 也服从正态分布。,10.2 多元线性回归,在实际问题中,常常需要研究一个被解释变量,多个解释变量的线性回归模型,例(详见商务与经济统计)位于南加州的巴特勒运输公司的管理人员为制定最佳的工作计划,希望估计他们的司机每天行驶的时间。起初,公司管理人员认为,司机每天行驶的时间与每天运送货物行驶的里程密切相关,通过观察散点图,管理人员假设,能利用一元线性回归模型,来描述行驶的小时数(Y)与行驶的英里数(X)之间的关系。,对公司的实际数据,采用普通最小二乘法估计出回归方程为,通过对方程的分析,公司的
12、管理人员发现,虽然这一结果不错,但方程只能解释每天行驶时间的变异性的66.4%。因此希望增加第二个解释变量去解释剩下的变异性。,管理人员在研究其它影响行驶时间的因素时,觉得运送货物的次数也会影响行驶的时间。因此在增加了一个解释变量运送货物的次数,以及相应的数据后,再进行回归分析,得到的回归方程具有形式,管理人员现在发现,这一方程能解释行驶时间变异性的90.4%。这已是相当好的结果了。,10.2.1 多元线性回归模型的基本假设(高斯假设),多元线性回归模型的矩阵表示,多元线性回归模型,应该对所有的样本数据都成立,因此有,这是n个表达式。回归分析的目的就是利用由样本数据产生的这n个表达式估计模型的
13、参数,得到模型的参数估计值 使得回归方程,最好地拟合了所有样本数据。,为便于讨论,对多元线性回归模型,常使用矩阵形式,其中,高斯假设,(1)u是随机向量;,(2)E(u)=0;,这里,所以这一假设就是要求所有的随机扰动项的期望值为零。即,(3);,这里,因此条件(3)意味着,这等价于 并且,也即所有扰动项方差相等,并且不存在序列相关。,(4),注意这一条件是用矩阵形式给出的。这相当于,(5)要求所有变量Xji是非随机的;或变量Xji虽然是随机的,但与ui不相关。,用数学表达式的形式,后者就是,(6)秩,这里实际上是两个判断,一个是 而另一个则是k n。,在(6)中的要求k n,实际上是要求样本
14、数据的数量n大于解释变量的个数(或待估计的参数的个数)k。而注意到矩阵X为,因此意味着矩阵X的行数大于列数。而要求,意味着矩阵X是满列秩的,即其所有列向量线性无关。并且这一条件蕴涵矩阵XTX正定(从而非奇异)。,其他假设:,(7)行列式|XTX|远离零。,10.2.2 普通最小二乘估计式,现在仍采用矩阵的记法,多元线性回归模型为,若得到了参数的估计量 则相应的回归方程为,于是残差向量为,普通最小二乘法就是要确定参数的估计值 使残差平方和,达到最小。,由于残差的平方和可以表示为,而,要使残差的平方和最小就必须,即,这就是所谓的正规方程组,其解就是要求的估计量。,由条件(6)可知矩阵 可逆。因此正
15、规方程组的解为,这就是要求的普通最小二乘(OLS)估计量。,10.2.3 普通最小二乘估计量的性质,高斯马尔柯夫定理:若关于多元线性回归模型的高斯假设中除了(4)外,其他假设都满足,则普通最小二乘估计量 是最优线性无偏估计量(BLUE)。若当 时,收敛于非奇异矩阵,则普通最小二乘估计量 还是一致估计量。,由上述定理可知,在高斯假设下,多元线性回归模型的普通最小二乘估计量具有非常好的统计性质。,具体来说,模型是线性的,OLS估计量是线性的,假设(2)、(5),OLS估计量是无偏的,假设(3),OLS估计量具有最小方差,10.2.4 普通最小二乘估计量的方差和分布,为了计算 的方差,考虑 的方差-
16、协方差矩阵,而,所以,假设(5),假设(3),即,从而有,其中 是矩阵 对角线上的第j个元素,常常将它记为cjj。于是有 或,可以证明:,(1)服从正态分布,(2)服从 分布,10.2.5 随机扰动项方差的无偏估计,在上面的讨论中可以看到我们要经常用到随机扰动项的方差。然而随机扰动项的方差是观察不到的。不过可以证明,是 的无偏估计量,10.2.6 判定系数R2(Coefficient of Determination),设想有如下图所示的两个样本,要分别建立能拟合它们的线性回归方程。,直观上容易看出,左边的图形显示的数据建立的回归方程对样本数据的拟合情况更好。这一观察表明:,(1)使用不同的数
17、据建立的线性回归方程对样本数据的拟合程度是有差别的。(2)线性回归方程对样本数据的拟合程度越好,样本数据所代表的解释变量与被解释变量之间的线性关系就越显著,从而越适合用线性回归方程来描述解释变量与被解释变量的相关关系。,可以看出离差(此处称为总变差)可分解为,其中,残差,解释变差,并且可以证明,即总变差的平方和=残差的平方和+解释变差的平方和,明显地,线性回归方程对样本数据的拟合情况越好,残差平方和就越小,从而残差平方和在总变差平方和中占的比重就越小,于是解释变差平方和占的比重就越大。,解释变差平方和占的比重,我们就把解释变差平方和在总变差平方和中占的比重称为判定系数,记为R2,即,或者使用矩
18、阵与离差的记号,R2越接近于1,线性回归方程对样本的拟合程度越好,也就是,整体回归效果越好。实际上R2越大,能用线性回归方程解释的被解释变量变异性的比例越大。,此外称R为复相关系数(Multiple Correlation Coefficient).,例1970-1982年美国“期望扩充”菲利普斯曲线,考虑如下的模型,其中,Yt时期t的真实通货膨胀率(%),X2t时期t的失业率(%),X3t时期t的预期通货膨胀率(%),根据宏观经济理论,预期有,并且值应该接近1。现在采用美国商务部经济分析局及联邦储备银行的数据(1970-1982年)估计模型,根据上表,可知回归的结果为,可见这一回归结果还是比
19、较好的,判定系数表明,两个解释变量合起来,可以解释真实通货膨胀率的变异的87.66%。此外直观地,并不为1,但可利用后面将要介绍的系数的t检验,检验它是否显著异于1。,10.2.7 回归效果的F检验,尽管判定系数较好地说明了回归效果,但它没有提供一个客观的标准来判断回归效果是否可以接受。这可以通过如下的F检验来判别。,原假设H0:,若不拒绝H0,则表明回归模型表示的线性关系并不显著,否则回归模型所表示的线性关系是显著的,因此回归效果是可以接受的。,检验统计量,易知,10.2.8 F与R2的关系,这就是为什么我们说拒绝了H0,就表明总的回归效果较好的缘故。,在F统计量的表达式中,分子与分母同时除
20、以总变差平方和就可得,10.2.9 校正的判定系数(Adjusted R2),前面定义的判定系数R2中不含自由度,因此在解释变量的个数k增加时,R2会变大,但它并不意味回归效果的改善。为了得到不依赖自由度变化的回归效果的检验,可以考虑使用校正的判定系数,即考虑了自由度的判定系数:,剔除了自由度影响,且也可以用来衡量回归效果,10.2.10 回归系数的T检验,对线性回归模型,除了需要考虑总的回归效果外,还需要考虑每个解释变量对被解释变量的影响是否显著。这可通过如下的方式进行检验。,原假设 H0:j=0;,备择假设 H1:j 0,检验统计量:,其中记号 称为 的标准误差表示将 的标准差 中的 换成
21、 的结果。t服从自由度为n k 的t分布。,对给定的显著性水平,查t分布表可得临界值,若 则拒绝H0,而不拒绝H1。这表明 显著异于零,因此解释变量Xj对被解释变量有显著影响。,这一检验称为系数 的显著性检验。拒绝H0,称通过了显著性检验。,反之若系数 没有通过显著性检验,则表明变量Xj对被解释变量的线性影响关系并不显著,因此可以考虑将它从回归模型中剔除出去。,在前面的美国“期望扩充”的菲利普斯曲线中,变量X1,X2系数的t统计值分别为-4.5652,8.3626,可见它们对被解释变量的影响都是显著的。,此外,t检验统计量也可用于,的检验。仍以前面的美国“期望扩充”的菲利普斯曲线为例。我们已经
22、提到对变量X3t时期t的预期通货膨胀率,我们预期其系数的值为1,但实际估计值为1.470032。现在来检验它是否显著异于1。这时,而在显著性水平5%下,临界值为t=2.2281,可见X3的系数是显著异于1的。,10.2.11回归系数的置信区间,对于系数,利用前面的T统计量,可以得到它在指定置信水平1-下的置信区间为:,在多元线性回归统计性质研究中,人们最注重的是如下三个统计量:,10.2.14 标准回归系数,在回归方程中,自变量的单位(例如,元,百元,万元等)对回归系数的数量级有很大的影响,如果要简单比较自变量对因变量作用的大小,就应剔除自变量单位的影响。一种经典的处理方式是将所有变量标准化。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 10 线性 回归 分析

链接地址:https://www.desk33.com/p-679865.html