第七章相关分析和回归分析.ppt
第六章 相关分析和回归分析,第一节 变量间的相关关系第二节 简单回归分析第三节 多元回归分析,第一节 变量间的相关关系,相关的概念相关分析的内容相关系数及其计算相关系数的检验,一、变量相关的概念,变量间的函数关系,是一一对应的确定关系设有两个变量 x 和 y,变量 y 随变量 x 一起变化,并完全依赖于 x,当变量 x 取某个数值时,y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y=f(x),其中 x 称为自变量,y 称为因变量,1、某种商品的销售额(y)与销售量(x)之间的关系可表示为 y=p x(p 为单价)2、圆的面积(S)与半径之间的关系可表示为S=R2 3、企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系可表示为y=x1 x2 x3,变量间的相关关系,现象之间存在的一种非确定性的数量依存关系(家庭收入和储蓄)变量间关系不能用函数关系精确表达,一个变量的取值不能由另一个变量唯一确定。当变量 x 取某个值时,变量 y 的取值可能有几个。,1、商品的消费量(y)与居民收入(x)之间的关系2、商品销售额(y)与广告费支出(x)之间的关系3、粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系4、收入水平(y)与受教育程度(x)之间的关系5、父亲身高(y)与子女身高(x)之间的关系,相关关系的类型(课本第114页),相关关系,完全相关,相关关系的图示,负线性相关,非线性相关,二、相关分析的内容,(1)判断现象之间有无相关关系(2)判断相关关系的方向、表现形态和密切程度,特点:不必区分自变量和因变量是回归分析的基础手段定性分析、相关表、相关图、相关系数,相关表和相关图,将变量X与Y对应数据用统计表反映,形成相关表。探讨变量x,y的相关关系时,常须先做出散点图(Scatter Diagram),以坐标系上的点代表x,y的观察值,可以直观地考察变量之间联系程度,并且有助于选择合适的估计模型。,相关表,“Click”公司对40个销售地区的调查结果见表,相关图(见前“相关关系的图示”)图:Click宝珠笔的地区调查散点图,由“click”公司的散点图可以看到销售额随每月电视广告时数增加时增加(a图);某地区销售代表人数变多时,该地区的销售额也随之上升(b图)。a图和b图进一步表示销售额与各变量之间的关系呈直线关系。现在问题在于各变量之间的紧密关系究竟强到何种程度。这就涉及到一个常用的指标相关系数。,三、相关系数及其计算,1、对变量之间关系密切程度的度量2、对两个变量之间线性相关程度的度量称为简单相关系数(偏相关系数与复相关系数见课本第115页),xy 变量x和y的协方差 x变量x的标准差 y变量y的标准差,相关系数的演变公式,或化简为,相关系数取值及其意义,1、r 的取值范围是-1,12、|r|=1,为完全相关r=1,为完全正相关;r=-1,为完全负正相关3、r=0,不存在线性相关关系相关4、-1r0,为负相关;0r1,为正相关5、|r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切,1、双胞胎身高间的相关系数是r=0.952、美国2534岁男子收入与受教育程度r=0.34 美国5564岁男子收入与受教育程度 r=0.44,生活中的相关:,两点注意,1、r=0只表明不存在线性相关,而不能说明是否存在非线性相关(亦即:r=0 时可能存在曲线相关)。2、r值仅表明两变量相关程度,不表明因果关系。,例:美国1874岁男子身高与体重之间的相关系数约为0.54,以下说法正确的是:(1)较高的男子趋于较重(2)体重较重的男子趋于较高(3)体重与身高之间的相关系数为0.54(4)如果多吃一些从而增加体重,你的身材就会变高。,相关系数算例,例:在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记为x。我们收集到19811993年的样本数据(xi,yi),i=1,2,,13,数据见表,计算相关系数。,根据样本相关系数的计算公式有 人均国民收入与人均消费金额之间的相关系数为 0.9987,上面介绍的是简单相关系数,其次还有复相关系数,偏相关系数和等级相关系数等。(偏相关系数与复相关系数见课本第115页),等级相关系数,有些变量无法用数量定大小,只能以等级排序。如才智高低、事态轻重、色泽深浅、效率大小、味道好坏等。,斯皮尔曼等级相关系数,例:确定学校名气和毕业生表现业绩之间是否存在相关联?,四、相关系数的显著性检验样本数据(r值)表明两个变量存在相关关系,是否能说明总体变量也存在相关关系?,检验步骤,1、提出假设:H0:;H1:02、计算检验统计量3、确定显著性水平,并作出决策 若tt,拒绝H0 若tt,接受H0,相关系数的显著性检验(实例),对前例计算的相关系数进行显著性检(0.05)1、提出假设:H0:;H1:02、计算检验的统计量,3、根据显著性水平0.05,查t分布表得t(n-2)=2.201由于t=64.9809t(13-2)=2.201,拒绝H0,人均消费金额与人均国民收入之间的相关关系显著,第二节 简单回归分析,回归分析的内容回归模型和回归方程简单线性回归(一元线性回归方 程)的建立(拟合)线性回归方程拟合优度的测定回归方程的显著性检验回归预测,回归方法描述一个变量如何地依赖另一个变量。身高和体重;成绩与努力程度;工作好坏与实力、机遇等“回归”一词来源于生物学。英国生物统计学家高尔顿根据1078对父子身高的散点图发现,虽然身材高的父母比身材矮的父母倾向于有高的孩子,但平均而言,父母身材高的其子要矮些,而身材矮小的,其子要高些。这种遗传上身高趋于一般,“退化到平庸”的现象,高尔顿称作回归。,高尔顿的学生皮尔逊继续研究,把回归的概念和数学方法联系起来,把代表现象之间一般数量关系的直线或曲线称为回归直线或回归曲线。,回归:借用的遗传学概念,现指变量之间的一般数量关系。回归分析:用函数关系近似表达现象之间数量变化的一般规律。反映现象间相关关系数量变化规律的函数表达式称为回归模型或方程。,回归分析的特点,两个变量不是对等的,必须区分自变量和因变量回归方程是用来由自变量的给定值来推算因变量数值的。自变量一般是给定的,因变量是随机的。回归分析是相关分析的目的,回归分析与相关分析的区别(见课本113页),1、相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量(dependent variable),处在被解释的地位,x 称为自变量(independent variable),用于预测因变量的变化2、相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量3、相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制,一、回归分析的内容,1、简单线性回归方程的拟合。从一组样本数据出发,确定变量之间的数学关系式2、拟合优度的测定及回归方程的显著性检验。对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著3、回归预测。利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度,二、回归模型和回归方程,回归模型的类型,回归模型,1、回答“变量之间是什么样的关系?”2、方程中运用1 个数字的因变量(响应变量)被预测的变量1 个或多个数字的或分类的自变量(解释变量)用于预测的变量3、主要用于预测和估计,一元线性回归模型(概念要点),1、当只涉及一个自变量时称为一元回归,若因变量 y 与自变量 x 之间为线性关系时称为一元线性回归2、对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系3、描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型,一元线性回归模型(概念要点),对于只涉及一个自变量的简单线性回归模型可表示为 模型中,y 是 x 的线性函数(部分)加上误差项线性部分反映了由于 x 的变化而引起的 y 的变化误差项 是随机变量反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响是不能由 x 和 y 之间的线性关系所解释的变异性0 和 1 称为模型的参数,一元线性回归模型(基本假定),1、误差项是一个期望值为0的随机变量,即E()=0。对于一个给定的 x 值,y 的期望值为 E(y)=a+b x2、对于所有的 x 值,的方差2 都相同3、误差项是一个服从正态分布的随机变量,且相互独立。即N(0,2)独立性意味着对于一个特定的 x 值,它所对应的与其他 x 值所对应的不相关对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关,回归方程(概念要点),1、描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程2、简单线性回归方程的形式如下 E(y)=a+b x,方程的图示是一条直线,因此也称为直线回归方程a是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值b是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值,三、简单线性回归(一元线性回归方 程)的建立(拟合),一元回归方程建立的前提条件,1、r 的绝对值大于0.6 2、有线性关系,参数a 和b的最小二乘法估计,最小二乘法(图示),x,y,(xn,yn),(x1,y1),最小二乘法(公式推导见课本359页)(和 的计算公式),根据最小二乘法的要求,可得求解 和 的标准方程如下,估计方程的求法(实例),例:根据前例中的数据,配合人均消费金额对人均国民收入的回归方程 根据 求解公式得,估计方程,人均消费金额y对人均国民收入x的回归方程为,y=54.22286+0.52638 x,估计方程的求法(Excel的输出结果),四、线性回归方程拟合优度的测定(判定系数、估计标准误差),1、因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面由于自变量 x 的取值不同造成的除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响2、对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示,总变差的分解,离差平方和的分解(图示),离差平方和的分解(三个平方和的关系),2、两端平方后求和有,1、从图上看有,SST=SSR+SSE,变差平方和的分解(三个平方和的意义),1、总平方和(SST)反映因变量的 n 个观察值与其均值的总离差2、回归平方和(SSR)反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和3、剩余平方和(SSE)反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和,判定系数 r2,1、反映回归直线的拟合程度取值范围在 0,1 之间 r2 1,说明回归方程拟合的越好;r20,说明回归方程拟合的越差判定系数等于相关系数的平方,即r2(r)2(证明见课本357页,估计标准误差 Sy,1、反映实际观察值在回归直线周围的分散状况2、从另一个角度说明了回归直线的拟合程度3、Sy越小,回归方程拟合得越好。,相关和回归分析之间的联系,相关系数r 和回归系数b的关系相关系数r与估计标准误差Sy的关系,应用相关分析与回归分析应注意的问题,1、定性分析与定量分析相结合2、注意客观现象的数量界限3、注意社会经济现象的复杂性4、注意相关分析与回归分析的辨证关系,五、回归分析的显著性检验,线性回归方程的显著性检验回归系数b的检验 相关系数的检验,在根据样本数据拟合回归方程时,我们首先假设变量x和y之间存在线性关系,但这种假设是否成立,需通过检验才能证实回归方程显著性检验或线性关系的检验(F检验:检验自变量和因变量之间的线性关系是否显著),通过最小二乘法得到的 能否作为回归方程中b的估计值?回归系数的检验(t检验:检验自变量x对因变量y的影响是否显著),为什么要进行检验?如何进行检验?,回归方程的显著性检验(线性关系的检验),1、检验自变量和因变量之间的线性关系是否显著2、具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著如果是显著的,两个变量之间存在线性关系如果不显著,两个变量之间不存在线性关系,回归方程的显著性检验(检验的步骤),1、提出假设H0:线性关系不显著(方程不显著),2、计算检验统计量F,3、确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F 4、作出决策:若FF,拒绝H0;若FF,接受H0,回归方程的显著性检验(方差分析表),(续前例)Excel 输出的方差分析表,平方和,均方,回归系数的显著性检验,2、在一元线性回归中,等价于回归方程的显著性检验,1、检验自变量 x 对因变量 y 的影响是否显著,回归系数的显著性检验(步骤),1、提出假设bH0:b=0(没有线性关系)H1:b 0(有线性关系)2、计算检验的统计量,3、确定显著性水平,并进行决策 tt,拒绝H0;tt,接受H0,回归系数的显著性检验(Excel输出的结果),一点注意,在一元线性回归中,F检验和t检验是等价的;但在多元线性回归中,这两种检验的意义是不同的。F检验是检验整个回归关系的显著性,而t检验则是检验回归中各个系数的显著性。,四、回归预测,回归方程通过显著性检验后,可以作回归预测。给定一x0值,可根据回归方程求得y0的估计值,现要按一定的概率推断总体中相应的因变量的可能数值。,第三节 多元线性回归,多元线性回归模型回归参数的估计回归方程的显著性检验回归系数的显著性检验多元线性回归的预测,多元线性回归模型(概念要点),一个因变量与两个及两个以上自变量之间的回归描述因变量 y 如何依赖于自变量 x1,x2,xp 和误差项 的方程称为多元线性回归模型涉及 p 个自变量的多元线性回归模型可表示为,b0,b1,b2,bp是参数 是被称为误差项的随机变量 y 是x1,,x2,xp 的线性函数加上误差项 说明了包含在y里面但不能被p个自变量的线性关系所解释的变异性,多元线性回归模型(概念要点),对于 n 组实际观察数据(yi;xi1,,xi2,xip),(i=1,2,n),多元线性回归模型可表示为,多元线性回归模型(基本假定),1、自变量 x1,x2,xp是确定性变量,不是随机变量2、随机误差项的期望值为0,且方差2 都相同3、误差项是一个服从正态分布的随机变量,即N(0,2),且相互独立,多元线性回归方程(概念要点),1、描述 y 的平均值或期望值如何依赖于 x1,x1,xp的方程称为多元线性回归方程2、多元线性回归方程的形式为 E(y)=0+1 x1+2 x2+p xp,b1,b2,bp称为偏回归系数 bi 表示假定其他变量不变,当 xi 每变动一个单位时,y 的平均平均变动值,多元线性回归的估计(经验)方程,1、总体回归参数 是未知的,利用样本数据去估计,2、用样本统计量 代替回归方程中的 未知参数 即得到估计的回归方程,一个二元线性回归的例子,例:一家百货公司在10个地区设有经销分公司。公司认为商品销售额与该地区的人口数和年人均收入有关,并希望建立它们之间的数量关系式,以预测销售额。有关数据如下表。试确定销售额对人口数和年人均收入的线性回归方程,并分析回归方程的拟合程度,对线性关系和回归系数进行显著性检验(=0.05)。,一个二元线性回归的例子(Excel 输出的结果),一个二元线性回归的例子(计算机输出结果解释),销售额与人口数和年人均收入的二元回归方程为,1、多重判定系数R2=0.9373;调整后的R2=0.91942、回归方程的显著性检验F=52.3498 FF0.05(2,7)=4.74,回归方程显著3、回归系数的显著性检验t=9.3548t=0.3646,;t2=4.7962 t=2.3646;两个回归系数均显著,