专题09成对数据的统计相关性、一元线性回归模型及其应用 (3个知识点5个拓展1个突破5种题型3个易错点)原卷版.docx
专题09成对数据的统计相关性、一元线性回归模型及其应用(3个知识点5个拓展1个突破5种题型3个易错点)【目录】倍速学习四种方法【方法一】脉络梳理法知识点1.相关关系知识点2.样本相关系数知识点3.经验回归方程拓展1.判断变量相关关系的三种方法拓展2.回归系数b的含义拓展3.最小二乘法求回归方程及回归方程的逆用拓展4.经验回归分析“三步曲”拓展5.样本相关系数人决定系数解的应用突破:非线性相关问题【方法二】实例探索法题型1.变量间相关关系的判断题型2.样本相关系数的应用题型3.经验回归方程及其应用题型4.回归效果的刻画题型5.非线性回归分析【方法三】差异对比法易错点1.混淆相关关系与函数关系致误易错点2.对经验回归方程的理解不到位致误易错点3.线性相关系数理解不正确致误【方法四】成果评定法【知识导图】一一知识点L相关关系/一知识点2.样本相关系数/知识点3.经验回归方程/拓展L判断变量相关关系的三种方法r成对数据的统计相关性一拓展2.回归系数力的含义V'''一拓展3.最小乘法求回归方程及回归方程的逆用'J拓展4.经验回归分析“三步曲”、-拓展5.样本相关系数,、决定系数改的应用突破:非线性相关问题【倍速学习四种方法】【方法一】脉络梳理法知识点1.相关关系-相关关系1 .相关关系的定义:两个变量有关系,但没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系.2 .相关关系的分类(1)按变量间的增减性分为正相关和负相关.正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势;负相关:当一个变量的值增加时,另一个变量的相应值呈现减少的趋势.(2)按变量间是否有线性特征分为线性相关和韭线性相关(曲线相关).线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在二aa附近,我们称这两个变量线性相关;非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们称这两个变量非线性相关或曲线相关.二、相关关系的直观表示散点图:为了直观描述成对样本数据的变化特征,把每对成对样本数据都用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图.例1.(1)单选题(2023下河南省直辖县级单位高二校考期末)下列两个变量中能够具有相关关系的是()A.人所站的高度与视野B.人眼的近视程度与身高C.正方体的体积与棱长D.某同学的学籍号与考试成绩(2)单选题(2022上新疆和田高二校考期末)对于变量孙N有以下四个散点图,由这四个散点图可以判断变量X与)'成负相关的是()知识点2.样本相关系数r当厂0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关;当H越接近1时,成对样本数据的线性相关程度越强;当M越接近0时,成对样本数据的线性相关程度越弱.线性相关系数是从数值上来判断变量间的线性相关程度,是定量的方法.与散点图相比较,线性相关系数要精细得多,需要注意的是线性相关系数,的绝对值小,只是说明线性相关程度低,但不一定不相关,可能是非线性相关.利用相关系数来检验线性相关显著性水平时,通常与0.75作比较,若H>0.75,则线性相关较为显著,否则不显著.例2.(2024上天津高三校联考期末)学习于才干信仰,犹如运动于健康体魄,持之已久、行之愈远愈受益.为实现中华民族伟大复兴,全国各行各业掀起了“学习强国”的高潮.某老师很喜欢"学习强国”中"挑战答题”模块,他记录了自己连续七天每天一次最多答对的题数如下表:天数X1234567一次最多答对题数),12151618212427777参考数据:x=4,J=19,Z片=140,X.vl2=2695,X=600,62.45,=!J=IZ=I相关系数二S(Xi-可(y-歹)2狂可心f由表中数据可知该老师每天一次最多答对题数y与天数X之间是相关(填"正"或"负"),其相关系数(结果保留两位小数)知识点3.经验回归方程1 .一元线性回归模型Y=bx+a+e,称,为丫关于X的一元线性回归模型.其中丫称为因变量或电应变量,称为宜变量或解E(e)=O,D(e)=2释变量,且称为截距参数,女称为斜率参数;e是y与"+之间的随机误差,如果e=d那么Y与工之间的关系就可以用一元线性函数模型来描述.2 .经验回归方程(1)相关概念:经脸回归直线:经脸回归方程也称经脸回归函数或经验回归公式,图形称为经脸回归直线.最小二乘估计:求经验回归方程的方法叫做最小二乘法,求得的Aa叫做儿。的最小二乘估计.残差:对于响应变量y,通过观测得到的数据称为观测值,通过经脸回归方程得到的y称为预测值,观测值减去预测值称为残差.(苍-可(M-方×iyi-ny力=M=-£")2Xi2-nX2Z=IZ=Ia=y-bx(3)决定系数收:K?越大,表示残差平方和越小,即模型的拟合效果越好;K?越小,表示残差平方和越大,即模型的拟合效果越差;方法技巧经验回归方程的求法及应用在散点图中,样本点大致分布在一条直线附近,利用公式求出41可写出经脸回归方程,利用经验回归模型进行研究,可近似地利用经脸回归方程$二送+来预测。方法技巧一元线性回归模型拟合问题的求解策略在一元线性回归模型中,R2与相关系数r都能刻画模型拟合数据的效果.r越大,R2就越大,用模型拟合数据的效果就越好.例3.(2024上青海西宁高三统考期末)家居消费是指居民在日常生活中购买和使用的家具、家电、建材、装修等产品和服务所形成的消费行为.长期以来,家居消费一直是居民消费的重要组成部分,对于带动居民消费增长和经济恢复具有重要意义.某家居店为了迎接周年庆举办促销活动,统计了半个月以来天数X与销售额y(万元)的一组数据(x,y):(3,61),(6,82),(9,91),(12,104),(15,112).通过分析发现X与),呈线性相关.求X与y的样本相关系数(结果保留三位小数);求X与y的线性回归方程¥=猿+吉(,b的结果用分数表示).W.njxiyi-rixy参考公式:相关系数r=F力=号,=y-x枢欣2L”x;-rc2参考数据:x,2=495,Z£=42086,f.=4422,15860126.Z-If=!f三l拓展L判断变量相关关系的三种方法1.解答题.(2023上高二课时练习)国家学生体质健康标准(2014年修订)中,体能监测包含身高、体重、肺活量、50米跑、坐位体前屈、引体向上(女:仰卧起坐)、立定跳远、100O米跑(女:800米跑),据此得到的每项指标都可以按照相应的单项指标评分表进行测量和计分,分别得到相应的数据.这些数据中的任意两组是否都可以作为成对数据进行相关分析?依据你的经验,哪两组数据的相关程度可能最高?哪两组数据的相关程度可能最低?如何通过统计方法检验你的判断?拓展2.回归系数6的含义2.单选题(2023上天津武清高三天津英华国际学校校考阶段练习)有人调查了某高校14名男大学生的身高及其父亲的身高,得到如下数据表:编号1234567891011121314父亲身高/cm174170173169182172180172168166182173164180儿子身高/cm176176170170185176178174170168178172165182170175180父亲身高1-165-TTl T !I-r 5 0 5 0 58 8 7 7 6Ii 11 H 1 H利用最小二乘法计算的儿子身高Y关于父亲身高X的回归直线为a=0839+28.957.根据以上信息进行的如下推断中,正确的是()A.当X=I72时,y173,若一位父亲身高为172cm,则他儿子长大成人后的身高一定是173CmB.父亲身高和儿子身高是正相关,因此身高更高的父亲,其儿子的身高也更高C.从回归直线中,无法判断父亲身高和儿子身高是正相关还是负相关D.回归直线的斜率可以解释为父亲身高每增加Iem,其儿子身高平均增加0.839Cm拓展3.最小二乘法求回归方程及回归方程的逆用3. (2024全国高三专题练习)近年来,我国新能源汽车技术水平不断进步、产品性能明显提升,产销规模连续六年位居世界首位.某汽车城从某天开始连续的营业天数X与新能源汽车销售总量y(单位:辆)的统计数据如下表所示:从某天开始连续的营业天数X1020304050新能源汽车销售总量W辆6268758189已知可用线性回归模型拟合y与X的关系,请用相关系数加以说明(结果精确到0001);求关于X的经验回归方程y=bx+at并预测该汽车城连续营业130天的汽车销售总量.参考数据:x,=H920,y=28575,52.236./=I/=1参考公式:相关系数=Ylxiyi-hxy2,经验回归方程y = a + bx中斜率与截距的最小二乘估计公xiyi-nxy式分别为3=j,a=y-bx.-应2/-I拓展4.经验回归分析“三步曲”4. (2021下广东河源高二河源市河源中学校考开学考试)现有一环保型企业,为了节约成本拟进行生产改造,现将某种产品产量X与单位成本),统计数据如表:月份123456产量(千件)234345单位成本(元/件)737271736968(1)试确定回归方程§=舐+机指出产量每增加1000件时,单位成本平均下降多少?假定单位成本为70元/件时,产量应为多少件?(参考公式:=j"H=j,=y-x)(7-)2-/=!/=!(参考数据EXa=1481,xl2=79)Z=IM拓展5.样本相关系数,、决定系数解的应用5. 填空题(2021下安徽六安高二安徽省舒城中学校考阶段练习)甲、乙、丙、丁4位同学各自对4,B两变量进行回归分析,分别得到散点图与残差平方和Z(¥一丹2如下表:i=l甲乙丙T散点图BB.BB*OAOAOAOA残差平方和115106124103则试验结果体现拟合A,8两变量关系的模型拟合精度高的同学是.6. (2021下黑龙江哈尔滨高二哈九中校考期末)全球化时代,中国企业靠什么在激烈的竞争中成为世界一流企业呢?由人民日报社指导,中国经济周刊主办的第十八届中国经济论坛在人民口报社举行,就中国企业如何提升全球行业竞争力进行了研讨.数据显示,某企业近年加大了科技研发资金的投入,其科技投入X(百万元)与收益(百万元)的数据统计如下:科技投入X1234567收益y19202231405070根据数据特点,甲认为样本点分布在指数型曲线y=23”的周围,据此他对数据进行了一些初步处理.如下表:Z7>:/-!EXiyi=lNXiZiZ=I7(>,-y)2/=!(-)2=151401239149213413017其中Zj=Iog2X,Z=-2,./Z=I(I)请根据表中数据,建立y关于X的回归方程(系数5精确到O1,用6的近似值算4):(2)乙认为样本点分布在直线丁="比+的周围,并计算得回归方程为9=8.25x+3,以及该回归模型的决定系数(即相关指数)皮=0.893,试计算用,比较甲乙两人所建立的模型,谁的拟合效果更好?(精确到0.001)由所得的结论,计算该企业欲使收益达到1亿元,科技投入的费用至少要多少百万元?(精确到0.1)附:对于一组数据(场,匕),(2,匕),(与,匕),其回归直线方程的斜率和截距的最小二乘法估(w-w)(vf.-v)Yuivi-nuv(vf-vj)2计分别为/=T,a=v-u,决定系数:K=T.参考数据:(w-i7)2IX-而2(vr-v)2<=lI=I/-IIog252.3.突破:非线性相关问题1.(2023全国模拟预测)一座城市的夜间经济不仅有助于拉动本地居民内需,还能延长外地游客、商务办公者等的留存时间,带动当地经济发展,是衡量一座城市生活质量、消费水平、投资环境及文化发展活力的重要指标.数据显示,近年来中国各地政府对夜间经济的扶持力度加大,夜间经济的市场发展规模保持稳定增长,下表为20172022年中国夜间经济的市场发展规模(单位:万亿元),其中20172022年对应的年份代码依次为1-6.年份代码X123456中国夜间经济的市场发展规模yi万亿元20.522.926.430.936.442.4(1)已知可用函数模型y="拟合丁与X的关系,请建立丁关于X的回归方程(,力的值精确到001);某传媒公司预测2023年中国夜间经济的市场规模将达到48.1万亿元,现用(1)中求得的回归方程预测2023年中国夜间经济的市场规模,若两个预测规模误差不超过1万亿元,则认为(1)中求得的回归方程是理想的,否则是不理想的,判断(1)中求得的回归方程是否理想.参考数据:V6x-v1=le2.848e°,48I.1673.36673.28217.251.162.83其中匕=In£.参考公式:对于一组数据(%,Wb®,岭),(“,匕),其回归直线E=&+血的斜率和截距的最小二乘估计分(wl-w)(vj.-v)别为/=J,av-u.(w-i5)2Z-I【方法二】实例探索法题型1.变量间相关关系的判断1.多选题(2023下高二课时练习)下列说法正确的是()A.闯红灯与交通事故发生率的关系是相关关系B.同一物体的加速度与作用力是函数关系C.产品的成本与产量之间的关系是函数关系D.广告费用与销售量之间的关系是相关关系题型2.样本相关系数的应用2.多选题(2023上辽宁沈阳高二校考期末)对两个变量丁和X进行回归分析,则下列结论正确的为()A.回归直线至少会经过其中一个样本点«,其)B.残差平方和越小的模型,拟合的效果越好C.建立两个回归模型,模型1的相关系数G=-0999,模型2的相关系数4=0876,则模型2的拟合度更好D.以y=/模型去拟合某组数据时,为了求出回归方程,设Z=Iny,将其变换后得到线性方程z=6x+ln2,则力的值分别为2,6题型3.经验回归方程及其应用3 .单选题(2023上四川成都高三成都七中校考期中)某公司一种型号的产品近期销售情况如表:月份X23456销售额y(万元)15.116317.017.218.4根据上表可得到回归直线方程9=O.75x+,据此估计,该公司7月份这种型号产品的销售额为()A.18.85万元B.19.3万元C.19.25万元D.19.05万元题型4.回归效果的刻画4 .单选题(2023江苏苏州校联考模拟预测)为研究某地区疫情结束后一段时间内的复工率,用模型(1)和模型(2)模拟复工率y(%)与复工时间X(X的取值为5,10,15,20,25,30天)的回归关系:模型(1)严=。+法,模型产设两模型的决定系数依次为用和耳.若两模型的残差图分别如下,则()模型的残差图10 15 20 25 30模型的残差图65251015202530A.B.R:、局关系不能确定C.R;R;D.题型5.非线性回归分析5.(2023全国高二课堂例题)在实验室中,获得了某化学品的化学反应时间和转化率的数据,见表4-1,试建立转化率y关于反应时间X的回归方程.时间x/min6080100120140150160170转化率y%6.139.9915.0220.9231.1138.8547.2555.05【方法三】差异对比法易错点1.混淆相关关系与函数关系致误1. (2023下宁夏固原高二校考阶段练习)下图中的两个变量,具有相关关系的是()2. (2023上辽宁丹东高三统考期中)哈尔滨冰雪大世界于2022年9月投入使用,总投资高达25亿元,号称“永不落幕”的冰雪游乐场,从“一季繁荣”到“四季绽放”2023年1月至5月的游客数以及对游客填写满意与否的调查表,统计如下:月份X12345游客人数y(万人)130mn9080满意率0.50.40.40.30.35已知关于X的线性回归直线方程为y=-11.5x÷134.5.(1)求2月份,3月份的游客数犯的值;在1月至5月的游客中随机抽取2人进行调查,把满意率视为概率,求评价为满意的人数X的分布列与期望E(X).rn_(n-工)(K-刃lyi-ny(参考公式:=j,a=y-bxt(x,R加-,沅2r-l;1易错点3.线性相关系数理解不正确致误3. (2022上四川遂宁高二校联考期末)某地随着经济发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款,如表1年份X20162017201820192020储蓄存款),(千亿元)567810为了研究计算的方便,工作人员将上表的数据进行了处理,f=x-2015,z=y-5得到表2:时间代号f12345Z01235求Z关于,的线性回归方程:通过(1)中的方程,求出y关于X的回归方程:用所求回归方程预测到2021年年底,该地储蓄存款额可达多少?附:对于一组样本数据(FyJ、(y2)、UpJrt),其回归直线勺=以+6的斜率和截距的最小二乘估ur-了)(-7)Zxa-两计值分别为5=上匕=与,a=y-bx(xi-x)2-V-x21=1/=I【方法四】成果评定法一、单选题1 .(2021高二课时练习)下列关于回归分析的说法中错误的是()A.回归直线一定过样本中心k,y)B.残差图中残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适C.甲、乙两个模型的2分别约为0.98和0.80,则模型乙的拟合效果更好D.两个模型中残差平方和越小的模型拟合的效果越好2 .某产品的广告费用X万元与销售额>万元的统计数据如表:广告费用X2345销售额y26394954根据上表可得回归方程y=9.4x+,据此模型预测,广告费用为6万元时的销售额为()万元A.63.6B.65.5C.72D.67.73 .下面给出四种说法:设“、b、C分别表示数据15、17、14、10、15、17、17、16、14、12的平均数、中位数、众数,则a<b<c在线性回归模型中,相关指数2表示解释变量对于预报变量变化的贡献率,心越接近于,表示回归的效果越好;绘制频率分布直方图时,各小长方形的面积等于相应各组的组距;设随机变量服从正态分布yv(4,22),则P(<>4)=l.其中不正确的是().AgC.D.4 .(2023上山东青岛高三统考开学考试)已知某设备的使用年限工(年)与年维护费用(千元)的对应数据如下表:X24568y34.56.57.59由所给数据分析可知:X与y之间具有线性相关关系,且y关于X的经验回归方程为5=05x+a,则a=()A.0.75B.0.85C.0.95D.1.055 .实验机构对人体脂肪百分比y(%)和年龄X(岁)的关系进行了研究,通过样本数据,求得回归方程y=0.58x-0.45,有下列说法:某人年龄为40岁,有较大的可能性估计他的体内脂肪含量约22.75%;年龄每增加一岁,人体脂肪百分比就增加0.45%;人体脂肪百分比),()和年龄X(岁)成正相关.上述三种说法中正确的有()A.3个B.2个C.1个D.0个6. (2023下高二课时练习)云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长.已知某科技公司2018年至2022年云计算市场规模数据,且市场规模y(单位:千万元)与年份代码X的关系可以用模型y=a*(其中e=2.71828)拟合,设Z=1”,得到数据统计如下表:年份2018年2019年2020年2021年2022年X12345ym112036.654.6Zn2.433.64由上表可得回归方程J=0.52x+1.44,则加的值约为()A.2B.7.4C.1.96D.6.97. (2023下呐蒙古兴安盟高二乌兰浩特市第四中学校考期中)已知某公司产品的广告投入X(万元)与利润丁(万元)的一组数据如表所示X23456y1521395075利润与广告投入工之间具有较强的线性相关关系,其线性回归直线方程是y=14.9x+o,据此模型估计广告投入为9万元时,利润约为()A.112万元B.114.5万元C.115万元D.115.5万元8. (2021下广西河池高二校联考阶段练习)已知一组数据确定的回归直线方程为y=-+2且亍=4,通过残差分析,发现两个数据(772.9),(-2.351)误差较大,去除这两个数据后,重新求得同归直线的斜率为1.5,则当X=Y时,y=()A.6B.7C.8D.13二、多选题9. (2023全国模拟预测)下列说法正确的是()A.某校高一年级学生有800人,高二年级学生有900人,高三年级学生有IC)C)O人,为了了解高中生对亚运会的关注程度,现采用分层雎机抽样方法抽取样本容量为270的样本进行问卷调查,其中高一学生抽取的样本容量为80B.某人有10把钥匙,其中有3把能打开门,若不放回地依次随机抽取3把钥匙试着开门,则第三次才7能够打开门的概率为京40C.对一组给定的样本数据(占,%),(,/),L,(乙,第)的统计分析中,样本相关系数越大,样本数据的相关程度越强D.有一组按照从小到大顺序排列的数据为,Ar2,3,L,Xnfn+lfL,2fr,设k=,£七,f=,将左,,加入原数据中得到一组新的数据为,x2,X3,L,k,L,Z,xw+1,L,t,L,2t,则占,X2tX?,L,Xqn+1,L,占的平均数、中位数、极差和方差与A,X?,与,L,k,L,.V,%用,1.,/,L,再”的平均数、中位数、极差和方差均相等10. (2023下辽宁阜新高二校联考阶段练习)考研已成为当今大学生的热门选择.下表统计了某市2017-2022年研究生的报考人数,年份201720182019202020212022年份代号X123456报考人数y/万1.872.362.923.253.734.47由数据求得研究生报考人数),与年份代号X的回归直线方程为亍=以+G,且2021年研究生报考人数的预测值比实际人数多0.12万,则()A. X与y之间呈正相关关系B. 5=1.35C.年份每增加1年,研究生报考人数估计增加了1万D.预测该市2023年研究生报考人数约为4.85万11. (2023下广东韶关高二统考期末)下列说法正确的是()A.事件A与事件B为互斥事件,则事件A与事件8为对立事件B.事件A与事件B为对立事件,则事件A与事件B为互斥事件C.若XN(,2),P(X>2)=0.2,则尸(OVXVI)=0.3D.一组成对样本数据线性相关程度越强,则这组数据的样本相关系数的绝对值就越接近于112. (2023湖南郴州统考一模)下列说法正确的是()A.若随机变量X服从正态分布X(3,),且P(X4)=0.7,则尸(3vXv4)=0.2B.一组数据10,11,11,12,13,14,16,18,20,22的第60百分位数为14C.若线性相关系数,I越接近I,则两个变量的线性相关性越强D.对具有线性相关关系的变量乂上其线性回归方程为3=O3x-m,若样本点的中心为(小2.8),则实数,"的值是一4三、填空题13. (2023高二课时练习)己知X与丁之间的一组数据:X014/n3ym35.57根据数据可求得了关于X的线性回归方程为y=2,lx÷0.85,则m的值为.14. (2022全国高二专题练习)2013年1月,北京经历了59年来雾霾天气最多的一个月.据气象局统计,北京市2013年从1月1日至1月30日这30天里有26天出现雾建天气,环境空气质量指数(AQI)技术规定(试行)将空气质量指数分为六级,如表L表1AQI组别状况0-50I优51100II良101150IH轻度污染151200IV中度污染201300V重点污染>300VI严重污染表2是某气象观测点记录的连续4天里AQ/与当天的空气水平可见度y(km)的情况.15. (2022江苏扬州统考模拟预测)用模型y=ce0去拟合一组数据时,为了求出线性回归方程,设Z=In,求得线性回归方程为2=0.3x+4,则女的值为.16. (2023湖南郴州安仁县第一中学校联考模拟预测)已知某种商品的直播平台支出X(单位:万元)与农产品销售额)(单位:万元)之间有如下对应数据:X234678y7.511.5m31.536.543.5根据上表可得线性回归方程5=6x+G,但由于操作员不慎,导致一个数据丢失,但可以知道(元月在函数y=V的图象上,据此估计,可以得到,的值为:当投入12万元时,销售额大约为万元.四、解答题17. (2022上四川德阳高二统考期末)2021年2月25日,全国脱贫攻坚表彰大会在北京隆重召开,习近平总书记在讲话中指出,现行标准下,9899万农村贫困人口全部脱贫,832个贫困县全部摘帽,12.8万个贫困村全部出列,区域性整体贫困得到解决,完成了消除贫困的艰巨任务.脱贫攻坚决战取得了全面胜利.为了防止返贫监测和建立帮扶机制,采取有效举措巩固脱贫攻坚成果,某市统计局统计出该市居民2016至2020年人均年收入如下表:(为了使运算简单,年份用末尾数字减5表示,2020年用5表示)年份20162017201820192020年份简写X12345人均年收入N(万元)131.51.82.123由表画散点图易知,人均年收入)'(万元)与年份简写X之间具有较强的线性关系,试用最小二乘法求关于X的回归直线方程,并依此预测2021年该市人均年收入;从2016到2020年五个年份的人均年收入中随机抽取两个数据作进一步分析,求所取得的两个数据中,人均年收入恰好有一个超过2万元的概率.附:回归直线的斜率和截距的最小二乘法估计公式:6=R,a=y-bx.(;-)2ft;一位2J=IJ=I18. (2023上江苏扬州高三统考阶段练习)随着时代的不断发展,社会对高素质人才的需求不断扩大,我国本科毕业生中考研人数也不断攀升,2020年的考研人数是341万人,2021年考研人数是377万人.某省统计了该省其中四所大学2022年的毕业生人数及考研人数(单位:下人),得到如下表格:A大学B大学C大学。大学2022年毕业人数X(千人)87542022年考研人数y(千人)0.60.40.30.3(I)已知y与X具有较强的线性相关关系,求y关于X的线性回归方程a=Ax+a;假设该省对选择考研的大学生每人发放0.6万元的补贴.(i)若该省大学2022年毕业生人数为120千人,估计该省要发放多少万元的补贴?(三)若A大学的毕业生中小江、小沈选择考研的概率分别为p、2p1,该省对小江、小沈两人的考研补贴总金额的期望不超过0.75万元,求P的取值范围.(-v)(z-y)fj.-nxy参考公式:b=JL=Hr,=j-./=I19. (2022上广东深圳高三校联考期中)红蜘蛛是柚子的主要害虫之一,能对柚子树造成严重伤害,每只红蜘蛛的平均产卵数y(个)和平均温度X(回)有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.1产卵数400-350-300-250-200-150-100-50-.*°202224262830323436温度根据散点图判断,N=法+。与y=cx(其中e=2718.为自然对数的底数)哪一个更适合作为平均产卵数y(个)关于平均温度X(0)的回归方程类型?(给出判断即可,不必说明理由)由(1)的判断结果及表中数据,求出y关于X的回归方程.(计算结果精确到0l)j(i-)(yi-y)他一ny附:回归方程中¥=必+近,方=-,a=y-bxHT一i/-1I-I参考数据(Z=Iny)r=ljiyi/=I7%z,/=1XyZ5215177137142781.33.6根据以往每年平均气温以及对果园年产值的统计,得到以下数据:平均气温在220以下的年数占60%,对柚子产量影响不大,不需要采取防虫措施;平均气温在22。至28团的年数占30%,柚子产量会下降20%:平均气温在280以上的年数占10%,柚子产量会下降50%.为了更好的防治红蜘蛛虫害,农科所研发出各种防害措施供果农选择.在每年价格不变,无虫害的情况下,某果园年产值为200万元,根据以上数据,以得到最高收益(收益=产值一防害费用)为目标,请为果农从以下几个方案中推荐最佳防害方案,并说明理由.方案L选择防害措施A,可以防止各种气温的红蜘蛛虫害不减产,费用是18万;方案2:选择防害措施瓦可以防治22国至2时的蜘蛛虫害,但无法防治28国以上的红蜘蛛虫害,费用是10万;方案3:不采取防虫害措施.20. (2023上重庆高三重庆八中校考阶段练习)混凝土的抗压强度X较容易测定,而抗剪强度y不易测定,工程中希望建立一种能由X推算y的经验公式,下表列出了现有的9对数据,分别为(,),(2,j2),.»(%)X141152168182195204223254277y23.124.227.227.828.731.432.534.836.21402086420 864 2133333 222 2抗剪强度y以成对数据的抗压强度X为横坐标,抗剪强度y为纵坐标作出散点图,如图所示.160180200220240260280300抗压强度X(1)从上表中任选2个成对数据,求该样本量为2的样本相关系数几结合r值分析,由简单随机抽样得到的成对样本数据的样本相关系数是否一定能确切地反映变量之间的线性相关关系?(2)根据散点图,我们选择两种不同的函数模型作为回归曲线,根据一元线性回归模型及最小二乘法,得到经验PI归方程分别为:¥=舐+%,(2)y=17.87891nx-75.2844.经验回归方程和的残差计算公式分别为4=-(17.87891nx1.-75.2844),Z=I,2,9.9(0)求Ze;/=I99(0)经计算得经验回归方程和的残差平方和分别为G=E(4)=50177,Q2=(4)=2.5007,经=I/=I验回归方程的决定系数吊=0.9693,求经验回归方程的决定系数&.Z(D(K一y)(z-yiy25007x00307附:相关系数厂=IJ“,决定系数改=-T,,岑=001530.JU-)2(z)2(x-z)250177Vr三l三1/=121. (2023河南统考模拟预测)党的二十大以来,国家不断加大对科技创新的支持力度,极大鼓舞了企业持续投入研发的信心.某科技企业在国家一系列优惠政策的大力扶持下,通过不断的研发和技术革新,提升关关系(0.75Ml,则认为y与X的线性相关性较强,H<0.75,则认为y与X的线性相关性较弱.);(2)该企业现有甲、乙两条流水线生产同一种产品.为对产品质量进行监控,质检人员先用简单随机抽样的方法从甲、乙两条流水线上分别抽取了5件、3件产品进行初检,再从中随机选取3件做进一步的质检,记抽到“甲流水线产品的件数为X,试求X的分布列与期望.附:相关系数ZE(7)("-'),174041.7.22. (2023山东潍坊统考模拟预测)某地区未成年男性的身高X(单位:Cm)与体重平均值单位:kg)的关系如下表1:表1未成年男性的身高与体重平均值身高/cm60708090100IlO120130140150160170体重平均值kg6.137.909.9912.1515.0217.5020.9226.8631.1138.8547.2555.05直观分析数据的变化规律,可选择指数函数模型、二次函数模型、哥函数模型近似地描述未成年男性的身高与体重平均值之间的关系.为使函数拟合度更好,引入拟