华北理工卫生统计学实验指导12相关与回归.docx
实验十二:相关与回归【目的要求】1 .掌握直线相关系数与回归系数的意义、计算及应用2 .掌握相关系数与PI归系数假设检验的方法3 .熟悉相关系数与回归系数的区别与联系4 .熟悉回归方程的建立及应用5 .了解相关与回归分析应用中的注意事项【案例分析】案例1:对某省不同地区水质的碘含量及其甲状腺肿的患病率作了调查后得到下表数据,发现不同地区的甲状腺肿的患病率的高低与本地区水质的碘含量有关。于是利用Pearson积差相关系数的计算公式,把碘含量视为变量X,把甲状腺肿的患病率视为因变量Y,计算出相关系数,得r=-0.712,经检验P<0.002,据此认为甲状腺肿的患病率与水质的碘含量之间有负相关关系,请讨论:1、该资料是何种类型?2、题中分析方法是否正确?为什么?若不正确,应当搜集哪些资料?如何分析?某省不同地区水质碘含量与甲状腺肿患病率地区碘含量(ugL)患病率(%)地区碘含量(ugL)患病率(%)11.040.5107.76.322.037.7118.07.132.539.0128.09.043.520.0138.34.053.522.0148.54.064.037.4158.55.474.431.5168.84.784.515.61724.50.094.621.0案例2:现有一份170例某病患者的治疗效果资料,按年龄和疗效两种属性交叉分类,结果如表1。作者进行了独立性卡方检验,得到卡方值为23.582,自由度是4,拒绝两种属性分类相互独立的零假设;进一步计算PearSOn列联系数为0.35,表明疗效和年龄间存在一定关联性。有人认为这种方法不太好,他计算了患者年龄与疗效的秩相关系数,计算过程见表2。表1170例某病患者的治疗效果资料患者年龄ii+秩次P好转治愈(岁)无效<185322057(1+57)/2=291830381078(58+135)/2=96.55015101035(136+170)/2=153合计50804017014535秩次q(1+50)/2(51+130)/2(131+170)/2=150.514535=25.5=90.5表2某病170例不同年龄患者与疗效年龄X秩次PP2疗效Y秩次qq2人数fpq<1825.5650.25无效298415739.5<1825.5650.25好转96.59312.25302460.75<1825.5650.25治愈15323409153901.51890.58190.25无效29841322624.51890.58190.25好转96.59312.25388733.251890.58190.25治愈153234091013846.550150.522650.25无效29841204364.550150.522650.25好转96.59312.251014523.2550150.522650.25治愈153234091023026.5加权合计145351593742.5145351593742.51701153142.5Z-5-喏=351000代入公式,有Lq=ZfqJ(%)27-89600351000×350865=-0.255314535=1593607.5-=350865492YnJ2,%)=11531425-出3535=_896。经假设检验,P=O.001,认为患者疗效与年龄之间存在负相关。请问,你对上述两种分析方法有何评论?哪种方法更合理?为什么?案例3:为了探讨镉对机体免疫功能的影响,分别对每组20只Iace小鼠以剂量为0.3、1.2、2.4mgkgday的氯化镉灌胃染毒14天,以20只未施染毒的小鼠为对照,分别测定小鼠脾淋巴细胞内钙调素含量(105ngkg)如表所示。染毒剂量与钙调素含量的分组信息染毒剂量(mg/kg/daY)样本含量钙调素含量(105ngkg)对照组(0)205.38±2.860.3204.68±2.721.2204.32±2.262.4203.70±2.67对这份资料,研究人员作了如下的统计分析:四个剂量组间比较的方差分析、钙调素均值与染毒剂量的相关系数、钙调素均值关于染毒剂量的线性回归。结论为:(1)经方差分析得F=L417,p>0.05,认为三个实验组的钙调素含量差异无统计学意义;(2)以各组的染毒剂量和钙调素的组均值计算的相关系数(厂-0.9996,p<0.05),故又结论为:染毒剂量与钙调素含量呈负相关:(3)通过染毒剂量预测钙调素含量效果很好。请讨论:(1)对该研究数据进行方差分析的目的是什么?(2)染毒剂量和钙调素的相关分析应该怎么做?(3)为了探讨小鼠脾淋巴细胞内钙调素含量与氯化镉染毒剂量的剂量一反应关系,应采用何种统计分析方法?(4)研究人员上述做法存在何种问题?【SPSS操作】L直线回归分析Analyze-*Regression-*Linear-*Dependent:y-*Independent(s):XfOK2.线性相关分析Analyze-*Correlate-*Bivariate-Variables:xy-*CorrelationCoefficents:选择合适的相关系数一OK【练习题】一、填空题1 .相关系数的意义是O2 .回归系数的意义是o3 .分类资料宜用描述两变量的相关性。4 .等级资料宜用描述两变量的相关性。5 .多重线性回归分析中,反映各自变量对反应变量贡献强弱的指标是o6 .偏相关系数是o7 .复相关系数反映了o二、选择题L相关系数的检验可用()A.散点图直接观察法代替B.t检验CF检验D.卡方检验E.以上都可2.计算积差相关系数要求()A.因变量Y是正态分布,自变量X可以不满足正态要求BC E 3 A D 4 A 5 A C E 6 A C 7 A C 8 A C 9 A B C D自变量X是正态分布,因变量Y可以不满足正态要求两变量都要求满足正态分布规律D.两变量只要是测量指标就行因变量Y是定量指标,自变量X可以是任何类型数据对R*C列联表资料作频数分布的比较与作两变量关联性分析()设计不同,卡方统计量一样B.两者仅假设不同C.两者仅结论不同两者的P值不同E.两者检验水准不同对两个分类变量的频数表资料作关联性分析(积差相关B.秩相关C.列联系数如果求得的样本相关系数r不等于0,则(两变量间有相关关系Irl大时就有统计学意义 对r作假设检验后才能推论 由样本求得相关系数r=0. 88, 两变量之间有高度相关性 对应的总体相关系数大于0 直线相关分析可用于研究( 儿童的性别与体重 儿童的性别与血型相关系数的假设检验结果PQ, 有直线相关关系 有确定的直线函数关系)D.线性相关)E.等级相关B.两变量间无相关关系D.n大时r就有统计学意义说明()B.r来自高度相关的总体D.对应的总体相关系数不为0E.以上都不对)的数量关系B.儿童的身高与体重D.母亲职业与儿童智商则在a水平上可认为相应的两个变量间()B.有曲线相关关系D.有确定的曲线函数关系相关系数r> 0时,散点图中散点的分布形态为() 散点完全在一条直线上散点完全在一条直线上,且随X增大,y也增大散点分布大致呈直线,且随X增大,y值减小散点分布大致呈直线,且随X增大,y值增大10 .相关系数的取值范围是(-1<r <1B.-lrlC.r取任意实数D.r取非负数认为两变量无直线相关证明两变量一定不存在直线相关12.对同一总体连续抽取两次样本,l.Ol(vl) , 2>0,05(v2),则可认为( A. r>r2B.C.不能据此确定二者大小关系11 .若r=0.702,对r作假设检验的结果为P>0.05,则()B.认为两变量有直线相关D.尚不能确定两变量有无相关关系分别计算相关系数此与n,若直接查表法的检验结果为)r<r2D.两组资料的相关密切程度肯定不一样13 .下列有关等级相关的叙述,错误的是()A.等级相关是一种非参数统计分析方法B.总体分布型未知的双变量资料适宜作等级相关分析C.它是用相关系数r来说明两变量相关密切程度与方向D.等级相关分析计算简便,适用面广14 .在相关性研究中,P值越小,则()A.两变量相关性越好B.结论可信度越大C.抽样误差越小D.认为总体具有线性相关的理由越充分E.抽样误差越大15 .在同一问题相关性研究中,样本例数越大,则()A.两变量相关性越好B.结论可信度越大C.认为总体具有线性相关的理由越充分D.抽样误差越小E.抽样误差越大16 .对变量X和Y同时进行简单相关分析和简单回归分析,其结果一定是()A.r>0,b<0B.r<0,b>0C.rb>=0D.r=bE.r与b符号无关17 .已知r=l,则一定有()A.SS总=SS朝B.SS«=SSHC.SS«=0D.b=lE.a=l18 .对含有常数项的线性回归系数作假设检验,其自由度是()A.nB.n-lC.n2D.2n-lE.2n219 .两组资料,回归系数b大的那一组()A.相关系数也大B.相关系数较小C.两变量相关较密切D.例数较多E.两组相关系数大小关系尚不能确定20 .Y=14+4X是17岁以年龄(岁)估计体重(市斤)的回归方程,若体重换成国际单位公斤,则此方程()A.截距改变B.回归系数改变C.两者都改变D.两者都不改变E.以上均可21 .如果对简单线性回归模型进行假设检验的结果是不能拒绝H0,这就意味着()A.该模型有应用价值B.该模型无应用价值C.该模型求解错误D.X与Y之间一定无关E.尚无充分证据说明X与Y之间有线性关系22 .求得Y关于X的线性回归方程后,对回归系数做假设检验的目的是对()做检验。A.样本斜率B.总体斜率C.样本均数D.总体均数E.样本分布23 .在求出Y关于X变化的线性回归方程后,发现将原始数据中的某一点(Xk,yk)的横坐标值代入方程后所得的值不等于yk,则可以认为()A.此现象无法解释B.此现象正常C.计算有错误D.X与Y之间呈非线性关系E.X与Y之间呈非线性关系24.对含有两个随机变量的同一批资料,既作线性相关,又作线性回归分析。对相关系数检验的t值记为L,对回归系数检验的t值记为二者之间的关系是()A.tr>tbB.tr<tbC.tr=tbD.trtbE.trtb三、判断题1 .样本相关系数小于0,则自变量与应变量的离均差乘积和也必定小于0。()2 .双变量正态分布资料不能做等级相关分析。()3 .等级相关系数的值必定介于0与1之间,值越大,表示相应的两个变量间关系越密切。()4 .单向有序列联表资料分析两个变量间的关系可以做秩相关分析。()5 .线性回归模型的前提条件是:线性、独立、正态与等方差。()6 .回归系数较大,表示两变量的关系较密切。()7 .样本回归系数小于0,而且假设检验结果有统计学意义,则可以认为两变量呈负相关。()8 .由样本数据计算获得PI归方程,而且假设检验结果有统计学意义,则可以认为变量X与Y间存在因果关系。()9 .残差图可以简单而又直观地评价回归分析的前提条件是否满足()10 .双变量正态分布资料,样本回归系数小于零,可认为两变量呈负相关。()11 .对于双变量正态分布资料,同一样本的相关系数及同归系数与零的差别的统计检验结论一致。()12 .样本相关系数r=0.8,就可认为两变量相关非常密切。()13 .建立了回归方程,且b有统计意义,就可认为两变量间存在因果关系。()四、思考题1 .直线同归分析中应注意哪些问题?2 .简述直线回归与直线相关的区别与联系?3 .试总结从样本数据判断总体回归关系是否成立的统计方法有哪些?【作业】1 .试就下表资料分析肾重与心重间的关系。(分别用相关分析和回归分析)(使用SPSS软件分析)10名成年男子(尸检)肾重与心重检测结果编号肾重(克)(x)心重(克)(y)编号肾重(克)()心重(克)(y)133327163403052357439736940433613288312262430532692682555269276103543502 .非典型肺炎流行期间,有人做了每日感染人数与口罩售出量的相关分析,结果相关系数为0.65,P<0.0l,有统计学意义。是否可以认为口罩售出越多,感染人数越多?应该如何正确解释结果?