MS03变量间的相关关系统计案例.docx
变量间的相关关系统计案例一、变量间的相关关系1 .常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2 .从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相去,点分布在左上角到右下角的区域内,两个变量的相关关系为负娱二、两个变量的线性相关1 .从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫线性回归方程.>-盯_2 .回归直线方程为9=版+4,其中=b=-t-a=y-bxnx/=1-23 .通过求Q=X(y-菽La)的最小值而得到回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方J最小,这一方法叫做最小二乘法.4 .相关系数当r>0时,表明两个变量正相关;当rVO时,表明两个变量负相关.I的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0时,表明两个变量之间Ili乎不存在线性相关关系.通常IrI大于0.75时,认为两个变量有很强的线性相关性.三、独立性检验1 .2X2列联表:假设有两个分类变量X和Y,它们的值域分别为x“X2和y,yz,其样本频数列联表(称2X2列联表)为:>'1y2总计Xlaba+bX2Cdc-d总计0+cb+dq+b+c+d心=(a+b)(;黑濯d)(c+J)(其中“="+b+°+d为样本容量)2 .用烂的大小可以决定是否拒绝原来的统计假设%,若腔值较大,就拒绝”,即拒绝事件A与8无关.3 .当烂23.841时,则有95%的把握说事件A与B有关;当K226.635时,则有99%的把握说事件A与B有关;当KW2.706时,则认为事件A与5无关.例1:某商品销售量M件)与销售价格%(元/件)负相关,则其回归方程可能是()AJ=-2x÷100B.y=2x+100C.y=-2x100D.y=2x100解:B、D为正相关,C$,中值恒为负,不符合题意.例2:两个变量y与X的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98B.模型2的相关指数R2为0.80C,模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25解:相关指数R2越大拟合效果越好.选A。X12345y1.21.82.53.23.8A.(0,0)B.(2,1.8)C.(3,2.5)D.(4,3.2)解:回归直线恒过定点(x,y),故X=3,y=2.5JC°例4:在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算H的观测值k=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是的(有关,无关).解:k=27.63>10.828,有99.9%的把握认为打鼾与患心脏病有关.答案:有关。例5:已知x、y的取值如下表所示:X0134y2.24.34.86.7从散点图竺i,y七线性相关,且=0.95x+,则。的值为解:计算X=2,y=4.5;代入得=2.6.1 .对回归分析的理解回归分析是处理变量相关关系的一种数学方法,它主要解决三个问题:(1)确定两个变量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出回归方程.2 .独立性检验思想的理解独立性检验的思想类似于反证法,即要确定“两个变量X与y有关系”这一结论成立的可信度,首先假设结论不成立,即它们之间没有关系,也就是它们是相互独立的,利用概率的乘法公式可推知,3d一庆)接近于零,也就是随机变量群不应该很小,如果计算出来的H的观测值A不是很小,(a-b)(c-d)(a+c)b-d)通过查表尸(昭2姐的概率很小.又根据小概率事件不可能发生,由此判断假设不成立,从而可以肯定地断言X与y之间有关系.例6,某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份20022004200620082010需求量(万吨)236246257276286(1)利用所给数据求年需求量与年份之间的回归方程£=去+心(2)利用中所求出的直线方程预测该地2012年的粮食需求量.年份一2006-4-2024需求量一257-21-1101929下:解:对预处理后的数据,容易算得X=O(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程.为此对数据预处理如£(-4)X(-21)+(-2)><(-11)+2X19+4X29260y=3.2,b=42+22+22+42=而=6.5,a='y-bx=3.2.由上述计算结果,知所求回归方程为y-251=h(x-2006)+a=6.5(-2006)+3.2.即y=6.5(-2006)+260.2.(2)利用直线方程,可预测2012年的粮食需求量为6.5X(20122006)+260.2=6.5X6+260.2=299.2(万吨)2300(万吨).X23456y34689Q9a对于表中数据,现给出如下拟合直线:y=x+l;®y=2x-;尸“一右尸和则根据最小二乘法的思想得拟合程度最好的直线是(填序号).-aR-a-282解:由题知X=4,y=6.,bG=ybx=一亍,勺=尹一亍故选(2)求回归直线方程.(结果保留到小数点后两位)O5O5 10 15 20 25 30 35 40 %1015 20 25 30 35 40 47_(参考数据:XZyi=3245, x =25, y =15.43, f-17_Zi=5 075, 7(x)2=4 375, Ix y =2 695) J-I(3)预测进店人数为80人时,商品销售的件数.(结果保留整数)解:(1)散点图如图右7_7_(2)VXy.=3245,X=25,),=15.43,=5075,7(x)2=4375,7xy=2695J=II=InYtxiyi-nxy_:.b=30.79,a=y-bx=-4.32,:回归直线方程是y=0.79-4.32.x,2-hx2i=(3)进店人数80人时,商品销售的件数),=0.79x80-4.3259件.例%通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好402060不爱好203050总计6050110._n(ad-bc2任/口P(K2NZ)0.0500.0100.001由八-3+颂c+小+c)3+舁伺'k3.841663510828110×(40×30-20×20)260×50×60×50参照附表,得到的正确结论是A.有99%以上的把握认为“爱好该项动动与性别有关”B.有99%以上的把握认为“爱好该项运动与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”解:根据独立性检验的定义,由K227.8>6.635可知我们有99%以上的把握认为“爱好该项运动与性别有关故选A。例10:某中学对高二甲、乙两个同类班级进行“加强'语文阅读理解训练对提高'数学应用题'得分率作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:60分以下6170分7180分8190分91100分甲班(人数)36111812乙班(人数)4S131510现规定平均成绩在80分以上(不含80分)的为优秀.(1)试分别估计两个班级的优秀率;(2)由以上统计数据填写下面2X2列联表,并问是否有75%的把握认为“加强'语文阅读理解训练对提高解:(1)由题意知,甲、乙两班均有学生50人,甲班优秀人数为30人,优秀率为瑞=60%,乙班优秀人数为25人,优秀率为需=50%,所以甲、乙两班的优秀率分别为60%和50%.(2)列联表如下:优秀人数非优秀人数合计甲班302050乙班252550合计5545100因为K=/黑林渣箸=鬻1°1°,所以由参考数据知,没有75%的把握认为“加强,语文阅读理解,训练对提高'数学应用题'得分率”有帮助.