商务统计学Ch13.ppt
,Chap 13-1,第13章多元回归,商务统计学(第5版),.,Chap 13-2,学习目标,在本章,你将学到:如何建立多元回归模型如何对回归系数进行解释如何确定哪些自变量应该纳入模型如何确定哪些自变量在预测因变量时是比较重要的如何在回归模型中使用属性变量,.,Chap 13-3,多元回归模型,想法:检查一个因变量(Y)与两个或多个自变量(Xi)之间的线性关系,有k个自变量的多元回归模型:,Y轴截距,总体斜率,随机误差,.,Chap 13-4,多元回归方程,利用样本数据估计多元回归模型的系数,Y的估计值(或预测值),估计出的斜率系数,k 个自变量的多元回归方程:,估计出的截距,在本章中,我们将利用Excel或者Minitab来得到回归斜率系数以及其他回归指标,.,Chap 13-5,两个自变量的模型,Y,X1,X2,自变量 X1的斜率,自变量 X2的斜率,多元回归方程,(续),.,Chap 13-6,例:2个自变量,一个冰冻甜点馅饼的经销商想要评估影响需求的因素因变量:馅饼销售量(单位:每周)自变量:价格(美元)广告费用(100美元)收集了15周的数据,.,Chap 13-7,销售馅饼的例子,销售量=b0+b1(价格)+b2(广告费用),多元回归方程:,.,Chap 13-8,多元回归的Excel 输出,.,Chap 13-9,多元回归的Minitab 输出,The regression equation isSales=307-25.0 Price+74.1 AdvertisingPredictor Coef SE Coef T PConstant306.50 114.30 2.68 0.020Price-24.98 10.83-2.31 0.040Advertising 74.13 25.97 2.85 0.014S=47.4634 R-Sq=52.1%R-Sq(adj)=44.2%Analysis of VarianceSource DF SS MS F PRegression 2 29460 14730 6.54 0.012Residual Error12 27033 2253Total 14 56493,.,Chap 13-10,多元回归方程,b1=-24.975:给定广告费用时,价格每上涨1美元,销售量平均每周减少24.975个,b2=74.131:给定销售价格时,广告费用每增加100美元,销售量平均每周增加74.131个,其中 销量以每周卖出的个数为单位 价格以美元为单位广告费用以100美元为单位.,.,Chap 13-11,利用多元回归方程做预测,预测销售价格为5.50美元,广告费用为350美元时一周的销售量:,预测销量为 428.62 个馅饼,注意广告费用是以100美元为单位的,所以在350美元也就意味着 X2=3.5,.,Chap 13-12,在Excel中利用 PHStat做预测,PHStat|regression|multiple regression,点击对话框“confidence and prediction interval estimates”,.,Chap 13-13,输入值,在Excel中利用PHStat做预测,(续),预测值Y,给定X值,Y均值的置信区间,给定X值,单个Y值的预测区间,.,Chap 13-14,在 Minitab中的预测,输入值,Predicted Values for New ObservationsNewObs Fit SE Fit 95%CI 95%PI 1 428.6 17.2(391.1,466.1)(318.6,538.6)Values of Predictors for New ObservationsNewObs Price Advertising 1 5.50 3.50,给定X,Y均值的置信区间,给定X,单个Y值的预测区间,.,Chap 13-15,多元可决系数,描述了Y的变化中能被一组变量X解释的部分所占的比例,.,Chap 13-16,52.1%馅饼的销量变化可以由馅饼价格的变化和广告费用的变化来解释,在Excel输出中的多元可决系数,.,Chap 13-17,在Minitab输出中的多元可决系数,The regression equation isSales=307-25.0 Price+74.1 AdvertisingPredictor Coef SE Coef T PConstant306.50 114.30 2.68 0.020Price-24.98 10.83-2.31 0.040Advertising 74.13 25.97 2.85 0.014S=47.4634 R-Sq=52.1%R-Sq(adj)=44.2%Analysis of VarianceSource DF SS MS F PRegression 2 29460 14730 6.54 0.012Residual Error12 27033 2253Total 14 56493,52.1%馅饼的销量变化可以由馅饼价格的变化和广告费用的变化来解释,.,Chap 13-18,调整后的 r2,当模型中加入一个新的变量X时,r2 肯定不会减少当比较模型时,这是一个劣势当加入一个新变量时,有什么净影响呢?当加入一个新变量X时,我们失去了一个自由度添加一个新变量X的说服力是否足以抵消失去一个自由度的损失?,.,Chap 13-19,调整变量Y可以被变量X解释的比例以反映自变量个数和样本大小(其中 n=样本量,k=自变量个数)惩罚过度使用不重要的自变量比 r2小在模型比较中有用,调整后的 r2,(续),.,Chap 13-20,考虑了样本量和自变量的个数,馅饼销量变化的44.2%可以被销售价格的变化和广告费用的变化解释,在 Excel输出中的调整r2,.,Chap 13-21,在Minitab输出中的调整r2,The regression equation isSales=307-25.0 Price+74.1 AdvertisingPredictor Coef SE Coef T PConstant306.50 114.30 2.68 0.020Price-24.98 10.83-2.31 0.040Advertising 74.13 25.97 2.85 0.014S=47.4634 R-Sq=52.1%R-Sq(adj)=44.2%Analysis of VarianceSource DF SS MS F PRegression 2 29460 14730 6.54 0.012Residual Error12 27033 2253Total 14 56493,考虑了样本量和自变量的个数,馅饼销量变化的44.2%可以被销售价格的变化和广告费用的变化解释,.,Chap 13-22,这个模型显著吗?,F 检验检验模型整体的显著性检验所有自变量X与Y之间是否存在线性关系利用F检验统计量假设:H0:1=2=k=0(不存在线性关系)H1:至少一个 i 0(因变量和至少一个自变量之间存在线性关系),.,Chap 13-23,整体显著性的F 检验,检验统计量:其 FSTAT 自由度为 k 和(n k-1),.,Chap 13-24,(续),整体显著性的F检验在Excel中的输出,自由度为2和12,F检验的P值,.,Chap 13-25,整体显著性的F检验在Minitab中的输出,The regression equation isSales=307-25.0 Price+74.1 AdvertisingPredictor Coef SE Coef T PConstant306.50 114.30 2.68 0.020Price-24.98 10.83-2.31 0.040Advertising 74.13 25.97 2.85 0.014S=47.4634 R-Sq=52.1%R-Sq(adj)=44.2%Analysis of VarianceSource DF SS MS F PRegression 2 29460 14730 6.54 0.012Residual Error12 27033 2253Total 14 56493,自由度为2和12,F 检验的P值,.,Chap 13-26,H0:1=2=0H1:1 和 2 不全为零=.05df1=2 df2=12,检验统计量:决策:结论:,由于检验统计量 FSTAT 在拒绝域(p-value.05)中,拒绝 H0,有证据证明至少有一个自变量影响Y,0,=.05,F0.05=3.885,拒绝 H0,不拒绝 H0,临界值:F0.05=3.885,整体显著性的F检验,(续),F,.,Chap 13-27,两个自变量的模型,Y,X1,X2,Yi,Yi,x2i,x1i,最好的模型通过最小化误差的平方和e2得到,样本观察值,多元回归模型的残差分析,残差=ei=(Yi Yi),.,Chap 13-28,多元回归假设,假设:误差的独立性误差值是统计独立的误差服从正态分布给定一系列 X值,误差服从正态分布 等方差(也被称为方差齐性)误差值的概率分布是等方差的,ei=(Yi Yi),回归模型的误差(残差),.,Chap 13-29,残差图在多元回归中的应用,以下残差在多元回归中用到残差与 Yi残差与 X1i残差与 X2i残差与时间(时间序列数据),用残差图检查是否违背回归假设,.,Chap 13-30,单变量是否显著?,用t检验单个变量斜率当其它变量为常数时,检查Xj 和Y是否是线性的假设:H0:j=0(没有线性关系)H1:j 0(在Xj 和Y之间存在线性关系),.,Chap 13-31,单变量是否显著?,H0:j=0(没有线性关系)H1:j 0(在Xj 和Y之间存在线性关系)检验统计量:(df=n k 1),(续),.,Chap 13-32,价格的t统计量 tSTAT=-2.306,p值是.0398广告费用的t统计量 tSTAT=2.855,p值是.0145,(续),单变量是否显著?Excel输出,.,Chap 13-33,单变量是否显著?Minitab输出,The regression equation isSales=307-25.0 Price+74.1 AdvertisingPredictor Coef SE Coef T PConstant306.50 114.30 2.68 0.020Price-24.98 10.83-2.31 0.040Advertising 74.13 25.97 2.85 0.014S=47.4634 R-Sq=52.1%R-Sq(adj)=44.2%Analysis of VarianceSource DF SS MS F PRegression 2 29460 14730 6.54 0.012Residual Error12 27033 2253Total 14 56493,价格的t统计量 tSTAT=-2.306,p值是.0398广告费用的t统计量 tSTAT=2.855,p值是.0145,.,Chap 13-34,d.f.=15-2-1=12=.05t/2=2.1788,斜率的推断:t检验例子,H0:j=0H1:j 0,每个变量的检验统计量落入拒绝域(p值.05),有证据表明价格和广告费用都影响销量,当=.05时,Excel 和 Minitab输出:,对每个变量,拒绝 H0,决策:结论:,拒绝 H0,拒绝 H0,a/2=.025,-t/2,不拒绝 H0,0,t/2,a/2=.025,-2.1788,2.1788,价格 tSTAT=-2.306,p值.0398广告费用 tSTAT=2.855,p值.0145,.,Chap 13-35,斜率的置信区间估计,总体斜率j的置信区间,例:价格变化对销量影响的95%置信区间是:-24.975(2.1788)(10.832)所以区间是(-48.576,-1.374)(这个区间不包含0,所以价格对销量的影响是显著地),其中t的自由度是(n k 1),其中t的自由度是(15 2 1)=12,.,Chap 13-36,斜率的置信区间估计,总体斜率j的置信区间,例:Excel输出也给出了区间的端点:在价格影响是固定的情况下,销售价格每增加$1,周销量将会减少1.37到48.58个,(续),.,Chap 13-37,虚拟变量的使用,虚拟变量是有两个取值的独立属性变量:是或否,开或关,男或女0,1变量假设数量变量的斜率不随属性变量的斜率变化,.,Chap 13-38,虚拟变量例子(两个值),令:Y=馅饼销量X1=价格X2=假期(X2=1 如果一周里有假期)(X2=0 如果一周里没假期),.,Chap 13-39,相同斜率,虚拟变量例子(两个值),(续),X1(价格),Y(销量),b0+b2,b0,有假期没假期,不同截距,有假期(X2=1),没假期(X2=0),如果拒绝H0:2=0,假期对馅饼销量有显著影响,.,Chap 13-40,销量:每周卖出的馅饼个数价格:馅饼价格($)假期:,虚拟变量系数的解释(两个值),例:,1 本周有假期,0 没假期,b2=15:平均来说,在价格相同下,有假期的周比没假期的周多卖15个馅饼,.,Chap 13-41,自变量的交互作用,假设每对X变量有交互作用对一个X变量的反应可能会改变另一个X变量的值包含两个交叉项,.,Chap 13-42,交互作用的影响,考虑:没有交互项,X1 对Y的影响用1表示有交互项,X1 对Y的影响用1+3 X2表示结果随X2改变而改变,.,Chap 13-43,X2=1:Y=1+2X1+3(1)+4X1(1)=4+6X1,X2=0:Y=1+2X1+3(0)+4X1(0)=1+2X1,交互作用例子,如果X1对Y的影响依赖于X2的值,斜率将是不一样的,X1,4,8,12,0,0,1,0.5,1.5,Y,=1+2X1+3X2+4X1X2,假设X2是一个虚拟变量,估计回归方程是,.,Chap 13-44,交互项的显著性,在有交互项下,利用系数的t检验进行检验,.,Chap 13-45,小结,建立多元回归模型检验多元回归模型的显著性讨论调整 r2讨论使用残差图检查模型假设 检验自回归系数虚拟变量的使用评估交互作用,