第6讲相关分析与回归分析.ppt
《第6讲相关分析与回归分析.ppt》由会员分享,可在线阅读,更多相关《第6讲相关分析与回归分析.ppt(129页珍藏版)》请在课桌文档上搜索。
1、数学建模培训,第6讲 相关分析与回归分析,一、引 言,2023/11/8,4,在很多研究领域中,往往需要研究事物间的关系。如收入与受教育程度,子女身高与父母身高,商品销售额与广告费用支出,农作物产量与施肥量,上述两者间有关系吗?如果有关系,又是怎么样的关系呢?如何来度量这种关系的强弱?解决上述问题的统计方法是相关,2023/11/8,5,分析和回归分析。相关分析和回归分析的共同点是都可推断两个变量间的统计相关性。但两者的区别是明显的,主要表现在:1.变量地位 在相关分析中,两个变量地位是对等的;但在回归分析中,一个变量是因变量,其余的变量均为自变量。,2023/11/8,6,2.变量类型 相关
2、分析中的两个变量均为随机变量,而回归分析中的因变量是随机变量,但自变量可以是随机变量,也可以是非随机变量。3.研究目的 相关分析仅度量两个变量间的相关程度和方向,而回归分析则要进一,2023/11/8,7,步建立因变量与所有自变量间的回归方程,即回归分析不仅推断自变量对因变量的影响程度,还可以根据回归方程进行预测和控制。,二、相关分析,2023/11/8,9,1.概述 事物之间的关系可分为两类,一类是函数关系,另一类是相关关系。所谓相关关系指的是两个变量间存在的一种不确定的数量关系,即一个变量的取值不能由另一个变量唯一确定。相关分析研究的是相关关系。,2023/11/8,10,相关分析主要研究
3、线性相关关系,但也考察非线性相关关系。下列不属于相关关系的是()。A.产品成本与生产数量 B.球的表面积与体积 C.家庭的支出与收入 D.人的年龄与体重 下列关系是线性相关的是()。,2023/11/8,11,A.人的身高与视力 B.圆心角大小与所对弧长 C.收入水平与纳税水平 D.父母平均身高与儿子身高 相关分析主要研究变量间是否相关及相关的密切程度与方向。相关分析中最常用的是简单相关分析,即两个变量间的相关性。,2023/11/8,12,三个及三个以上变量间的关系称为复相关,它研究的是一个因变量与两个及以上自变量间的关系。通常,通过控制变量法将复相关转化为两个变量间的相关性,这种关系称为偏
4、相关。描述变量间相关性的常用统计指标是相关系数。除此之外,还可以通,2023/11/8,13,过距离来描述变量间的关系,称之为距离相关分析。下面分别介绍简单相关分析、偏相关分析和距离相关分析。2.简单相关分析 简单相关主要包括Pearson相关,Spearman相关和Kendalls相关。(1)Pearson相关系数,2023/11/8,14,Pearson相关是简单相关分析中最常用的相关分析方法,其适用范围是:连续数据;正态分布;线性关系。Pearson(线性)相关系数r的性质:|r|1;r0 时正相关;r0 时负相关;r=0时不相关,即两变量间不存在线性相关关系,但可能存在其它形式的非线性
5、关系。,2023/11/8,15,|r|0.8时高度相关;0.5|r|0.8时中度相关;0.3|r|0.5时低度相关;|r|0.3时基本不相关。由于相关系数是用样本计算得到的,带有一定的随机性,所以用样本相关性估计总体相关性的可信度需要检验。SPPS可以自动进行检验,并分,2023/11/8,16,别用“*”,“*”标注显著性水平0.05,0.01下的显著相关。(2)Spearman和Kendalls相关系数 Pearson相关系数属参数统计分析中的矩相关系数,有一定的局限性:当正态分布假设不成立时,检验结果不可信;只能度量线性相关性,不能描述非线性相关性。,2023/11/8,17,Spea
6、rman和Kendalls相关系数为非参数统计分析中的秩相关系数。当正态分布假设不成立或分析非线性相关关系时,可考虑用上述两种相关系数。但这两种相关系数最适合度量两排序变量间的相关性,对连续变量效果欠佳。,2023/11/8,18,排序变量的取值可以表示某种顺序关系,如服务满意度取值15,分别表示非常不满意,不满意,一般满意,满意,非常满意。例1 24位高水平数学家的年收入y与其研究成果指标x1,研究工作时间x2以及申请项目成功指标x3如下,分析年收入与三个指标的关系。,2023/11/8,19,解 分析-相关-双变量-调入所有变量,默认“Pearson,双侧检验,标记显著性相关”。结果显示,
7、年收入与三个指标的相关系数分别为0.668,0.859,0.673,在0.01水平下显著相关。上述相关分析只是给出了年收入与三个指标的两两线性相关程度,并,2023/11/8,20,没有给出它们之间统计学意义下的具体关系,可用回归分析进一步研究。,2023/11/8,21,3.偏相关分析 有时,由于第三个变量的作用,使得简单相关系数不能真实反映两变量间的相关性。例如,研究身高与体重的相关性时,如不考虑年龄、地域的影响,则所得相关系数有可能不能真实反映身高与体重的关系。,2023/11/8,22,偏相关分析是在控制对两变量间相关性可能产生影响的其它变量的前提下,即在剔除其它变量的干扰下,研究两变
8、量间的相关性。偏相关分析假定变量间的关系均为线性关系,没有线性关系的变量不能进行偏相关分析。因此,在偏相关分析前,可以先通过计算Pearson相关,2023/11/8,23,系数来判定两两变量间的线性关系。偏相关分析通过计算偏相关系数来研究变量间的相关性。偏相关系数的含义与检验方法与简单相关系数类似。,2023/11/8,24,例2 Pearson相关分析显示,年收入与研究工作时间相关性最强。现剔除x1,x3影响后,分析年收入与研究工作时间的关系。解 分析-相关-偏相关-y,x2调入变量,x1,x3调入控制,选择“双侧检验,标记显著性相关”。结果显示,年收入与研究工作时,2023/11/8,2
9、5,间的偏相关系数为0.825,小于简单相关系数。可见,简单相关系数有夸大的成分,偏相关系数与实际更加吻合。,2023/11/8,26,4.距离相关分析 简单相关分析和偏相关分析研究的是两个变量间的相关关系,它们不能分析两个以上变量间的相关关系。此时,可以通过距离相关分析,考察变量间的相似性。距离相关分析通过计算广义距离度量样品或变量间的相似程度。,2023/11/8,27,距离相关分析一般不单独使用,而是作为聚类分析、因子分析等的预处理过程。距离相关分析根据统计量的不同,分为不相似性测度和相似性测度。对于不相似性测度,通过计算距离来表示,距离越大,相似性越弱;对于相似性测度,通过计算 Pea
10、rson 相关系,2023/11/8,28,数来表示,其数值越大,相似程度越强。在不相似性测度距离分析中,应根据变量的类型选用不同的距离,如区间、计数、二分类。,2023/11/8,29,例3 根据8种品牌啤酒的部分调查数据,分析啤酒品牌的相似度。解 分析-相关-距离-所有指标调入变量,计算距离选“个案间”。注 SPSS中的个案指数据表中的行,即一个样本的数据;变量指数据表中的列,即同一指标的所有值。通常,考察变量间的相关性可用,2023/11/8,30,相似性测度,而个案即样品间的相似性则采用不相似性测度。显然,品牌1和品牌6最相似,而,2023/11/8,31,和品牌2最不相似。若采用相似
11、性测度,结果为 显然,样品间的相关系数都接近于1,很难辨别出其相似程度。,2023/11/8,32,例4 5名考官给10名应聘者的面试分数如下,请问各考官评分的一致性如何?哪位考官的可信度较小?各应聘者分数的差异是否明显?解 若第1问改为:请问不同考官对应聘者面试分数的影响是否显著,则勉强可用方差分析。因为考官给10应聘者打分不是严格意义下的重复试,2023/11/8,33,验。同理,若将应聘者分数做为指标,5个考官打分可视为5次重复试验(这需要假设考官的打分客观,基本无偏差),则第3问也可使用方差分析。考虑到题目和问题的特点,本题用距离分析更为合理。因为方差分析比较的是均值,而两组很不一致的
12、分,2023/11/8,34,数的均值却可能相差不大。分别对5个变量(列)做相似性分析,如果如下:,2023/11/8,35,结果显示,前4个考官的评分比较相似,一致性较好;第5个考官的评分与前4个考官的评分很不相似,一致性较差,故第5个考官的评分不太可信。为了考察应聘者分数的差异,应该对数据进行按行距离相关分析。分析结果如下:,2023/11/8,36,从上述结果可以判断,应聘者的分数差异较为明显。,三、回归分析,2023/11/8,38,1.概述 与相关分析相比,回归分析不仅能刻画变量间的线性相关程度,而且还能根据回归方程进行预测和控制。英国统计学家Galton和他的学生Pearson观察
13、了1078对夫妇,得出了其成年儿子身高y与夫妇平均身高x的统计关系为,2023/11/8,39,即父辈身高每增加或减少一个单位,其子辈身高仅增加或减少半个单位,也即子代的身高有回到同龄人平均身高的趋势。Galton称这种现象为“回归”。为了纪念Galton,后人将研究两变量间统计关系的方法称为回归分析。,2023/11/8,40,回归分析包括的内容甚广。本讲仅介绍下列基本内容:,2023/11/8,41,回归分析的过程和步骤为:(1)根据研究目的,选定指标变量 研究目的确定后,被解释变量比较容易确定。比如,研究通货膨胀时,自然选择全国零售物价总指数作为被解释变量,即因变量。但对被解释变量有影响
14、的解释变量的确定就不太容易。一是人的认识,2023/11/8,42,有局限,很难确定哪些因素对被解释变量有影响;二是回归分析要求解释变量间应该是不相关的,而研究者很难确定哪些变量相关或不相关,因为在经济领域很难找到影响同一结果的一些因素彼此之间是独立的;三是从经济关系角度考虑可能要引入某个重要变量,但实际中并无这样的统计数,2023/11/8,43,据。此时,可考虑用相近的变量替代,或由其它几个指标复合而成一个新的指标(主成分分析)。另外,不要认为回归模型包括的解释变量越多越好。若回归模型漏掉主要变量肯定会影响应用效果,但如果连一些不重要的因素也进入模型其实未必就好。,2023/11/8,44
15、,当引入的变量太多时,一来计算量大,累积的计算误差也大,估计出的模型参数精度自然不高;二来可能引入了相关性较强的变量,它们反映的信息有较严重的重叠,即所谓共线性问题。总之,回归变量的确定是一个非常重要的问题,是建立回归模型最基,2023/11/8,45,本的工作。(2)数据的采集和处理 数据的采集也是建立回归模型的重要一环。大多数建模竞赛题目会提供相关数据,但这些数据可能包含了一些无用的信息,个别数据缺失甚至失真。在建模前,需要对数据进行适当,2023/11/8,46,处理。比如标准化,剔除个别过大或过小的“野值”,用插值方法补齐空缺数据等。(3)回归模型形式的确定 收集、处理好数据后,首先要
16、确定适当的数学模型来描述这些变量间的统计关系。本讲仅介绍线性回归,对一元线,2023/11/8,47,性回归,可以根据散点图判定;对于多元线性回归,通常只能根据事后的模型的显著性检验。(4)模型参数的估计 模型确定后,就要利用样本数据对模型中的参数进行估计。估计参数的常用方法是最小二乘法。,2023/11/8,48,利用统计软件可便捷地进行参数估计。(5)模型的检验与修正 模型的参数估计完成后,只能说初步建立了回归模型,还不能立即用用这个模型进行预测和分析,因为这个模型是否真正揭示了被解释变量和解释变量间的关系还有待检验。,2023/11/8,49,回归模型通常需要进行统计检验和经济意义检验。
17、统计检验包括回归方程的显著性F检验,回归系数的显著性t检验,回归方程的拟合优度R2检验和解释变量的多重共线性检验等。由于样本容量所限或数据质量问题,回归模型可能得不到合理的经济,2023/11/8,50,解释,比如出现了国民收入与GDP负相关。当回归模型没有通过检验时,要对模型进行修正。模型的修正可以考虑变量是否设置合理,变量间是否有很强的相关性,样本量是否太少,理论模型是否合适等。(6)回归模型的应用,2023/11/8,51,当回归模型通过了各种检验后,就可以进行模型应用了。回归模型的一个重要应用是进行预测。比如根据宏观国民经济模型就可以预测下一年的GDP。这方面已有很多成功的范例。回归模
18、型的另一个重要应用是进行控制。,2023/11/8,52,因为回归模型揭示了被解释变量和解释变量间的因果统计关系,所以可以通过给定被解释变量值来控制解释变量值。例如,若想将通货膨胀控制为全国零售物价指数增长5%以下,则可以根据通货膨胀回归模型,确定货币的发行量和银行的存款利率等。,2023/11/8,53,2.一元线性回归 一元线性回归是描述两变量间统计关系的最简单的回归模型。(1)模型的建立与参数估计 根据相关背景知识或散点图,若两变量间近似呈线性关系,则可用一元线性回归模型,2023/11/8,54,其中y称为被解释变量(因变量),x称为解释变量(自变量),称为回归系数,称为随机误差。利用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 相关 分析 回归

链接地址:https://www.desk33.com/p-756074.html