第11章多元线性回归.ppt
《第11章多元线性回归.ppt》由会员分享,可在线阅读,更多相关《第11章多元线性回归.ppt(39页珍藏版)》请在课桌文档上搜索。
1、第十一章多元线性回归(简介),当研究两个变量间的线性关系时,直线回归是回归分析中最简单的一种。直线回归主要研究一个应变量(dependent variable)与一个自变量(independent variable)间的线性趋势的数量关系。生物医学研究中,常遇到一个应变量与多个自变量数量关系的问题。,收缩压与年龄和体重的关系、血糖的变化与胰岛素、生长素等因素有关。肺活量与身高、体重、胸围的关系;胃癌术后效果与癌组织类型、浸润程度、肉芽反应、有无淋巴转移等因素有关;,例如:,用线性方程表达一个应变量与一组自变量的数量关系,就是多元线性回归(multiple linear regression),
2、常简称为多元回归(multiple regression)。,设应变量为Y,自变量为:X1,X2,Xk,Y与自变量X1,X2,Xk 的多元回归,就是指 Y与 k 个自变量X1,X2,Xk 有如下线性关系:,多元线性回归方程:,式中 是为Y的估计值或预测值(predicted value),表示当给定各自变量的值时,因变量Y 的估计值;b0 为截距,在回归方程中又称为常数项,表示各自变量均为0 时Y 的估计值;bi 称为偏回归系数(partial regression coefficient),简称为回归系数,表示其它自变量不变时,Xi 每改变一个单位,Y 的平均变化量。,原始资料作多元线性回归
3、分析,理论上应满足的条件有:,1)线性(linear),因变量与自变量的关系是线性的;2)独立性(independence),随机误差项在不同样本点之间是独立的,无自相关;3)正态性(normality),随机误差项服从均数为零、方差为2的正态分布;,4)方差齐性(equal variance,or homogeneity),随机误差项在不同样本点的方差相等。以上四个条件缩写为LINE,与直线回归中的条件是相同的。如果目的是建立多元回归方程,探讨自变量与因变量间的数量关系,而无需根据自变量的取值预测因变量的容许区间、可信区间等,则后两个条件可以适当放宽。,多元回归方程的资料格式例号y x1 x
4、2 xk 1 y1 x11 x21 x1k 2 y2 x12 x22 x2k n yn xn1 xn2 xnk,例11.1同样身高的20名健康男子的收缩压、年龄和体重的测量结果见表。试建立收缩压与年龄和体重之间的多元线性回归方程。,偏回归系数的估计,回归分析的目的之一就是要建立一个回归方程,以使研究人员能够根据已知的自变量去预测因变量的取值。回归系数的估计仍然用最小二乘法(LSM)。(计算方法略),20名建康男子的收缩压、年龄和体征的测定值,编号 收缩压y 年龄x1体重x2 1 15.60 50 76.0 2 18.80 20 91.5.20 19.19 43 85.5 用最小二乘法(meth
5、od of least square)求解b1、b2、b0得:,在该方程中,b1=0.0546,表示在体重不变的前提下,年龄每增加1岁,收缩压平均增加0.0546(kPa);b2=0.1944(kg),表示在年龄不变的情况下,体重每增加1kg,收缩压平均增加0.1944(kPa)。,截距b0=-0.6815,表示X1,X2 都为0 时,Y 的估计值,在这里没有实际意义,是根据方程估算出来的值。例如,当X1=50,X2=80 时,=17.60,表示对所有年龄为50岁,体重为80kg 的男子,估计平均收缩压为17.60(kPa)。,二、多元回归方程统计学意义的假设检验,假设检验包括多元回归方程的假
6、设检验与偏回归系数的假设检验。多元回归方程的假设检验常用方差分析:ANOVA(方差分析表)变异来源 Sum of squares df Mean Square F PRegression 33.65 2 16.82 11.31 0.0008Residual 25.28 17 1.49 Total 58.93 19,偏回归系数的假设检验用t检验:Coefficients(参数估计)Unstandardized Standardized Coefficients Coefficients Bota b std.Error b t P 偏回归系数b的标准误标准化偏回归系数Constant-0.681
7、5 3.9017-0.175 0.8634 X1 0.0546 0.0241 0.3667 2.268 0.0366 X2 0.1944 0.0429 0.7323 4.530 0.0003,三、标准化偏回归系数,由公式求出的偏回归系数的绝对值大小与自变量的度量单位有关,因而偏回归系数大的应变量未必对应变量y的线性影响也大。当自变量之间不存在较强的相关关系时,可以计算每一个自变量的标准化偏回归系数。具有较大标准化偏回归系数的自变量对应变量y的影响相对较大。,四、复相关系数,在多元线性回归分析中,直接建立Y 与全部自变量之间的线性回归模型通常是不可取的,因为不能说这些自变量对建立回归模型都是必要
8、的。因此,在建立回归方程的过程中有必要考虑对变量进行筛选,从许多自变量中挑选出对Y 有影响的自变量,有利于提高回归方程的质量。,一般来说,当回归方程中自变量个数增加,或多或少总能减少剩余误差,提高模型的拟合精度,但势必导致模型的复杂性。因此,在建立回归方程时,要遵循一个原则,即“少而精”。具体地说:既要尽可能地提高拟合的精度,又要尽可能地使模型简单。这就需要有一些量化的标准来衡量所得模型的“优劣”。目前,常用的衡量方程“优劣”的标准有复相关系数。,复相关系数(multiple correlation coefficient)用R表示,取值在01之间。表示m个自变量共同对应变量y的相关密切程度。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 11 多元 线性 回归

链接地址:https://www.desk33.com/p-680349.html