多元线性回归与多项式回归.docx
第九章多元线性回归与多项式回归直线ISI归研究的是一个依变量与一个自变量之间的Pl归问题,但是,在畜禽、水产科学领域的许多实际问题中,影响依变量的自变量往往不止一个,而是多个,比方绵羊的产毛量这一变量同时受到绵羊体重、胸围、体长等多个变量的MJ响,因此需要进行一个依变量与多个自变量间的回归分析,即多元回归分析(multipleregressionanalysis),而其中最为简单、常用并且具有根底性质的是多元线性回归分析(multiplelinearregressionanalysis).许多非线性回归(non-linearregression)和多项式回归(polynomialregression)都可以化为多元线性回归来解决,因而多元线性回归分析有着广泛的应用。研究多元线性l三l归分析的思想、方法和原理与直线三l归分析根本相同,但是其中要涉及到一些新的概念以及进行更细致的分析,特别是在计算上要比直线回归分析复杂得多,当自变量较多时,需要应用电子计算机进行计算。aaa第一节多元线性回归分析多元线性回归分析的根本任务包括:根据依变量与多个自变量的实际观测值建立依变量对多个白变量的多元线性回归方程:检验、分析各个自变量对依自变量的综合线性影响的显著性:检验、分析各个自变量对依变量的单纯线性影响的显著性,选择仅对依变量有显著线性影响的自变量,建立最优多元线性l三l归方程;评定各个自变量对依变量影响的相对重要性以及测定最优多元线性l三l归方程的偏离度等。一、多元线性回归方程的建立一)多元线性回归的数学模型设依变量y与自变量占、心、心共有"组实际观测数据:序另y修X2/e1>"1.x2%2JzIIx12Ix221I%2IIN4x2n假定依变量y与自变量制、X2、Xm间存在线性关系,其数学模型为:力=A)+4Xlj+。2了2J+BmXmj+£j(%1)尸12"式中,XI、X2可以观测的一般变量(或为可以观测的随机变量);y为可以观测的随机变量,随片、X2Xm而变,受试验误差影响;勺为相互独立且都服从N(0"2)的随机变量。我们可以根据实际观测值对为、四、伤、",以及方差b2作出估计。二)建立线性回归方程设y对占、x2、XDI的m元线性回归方程为:其中的比、仇、仇、bnt为00、尸I、昆、户,"的最小二乘估计值。即无、4、无、儿,应使实际观测值y与回归估计值,的偏差平方和最小。令0=£(力一分产Q为关于、仇、b2、,,的m+1元函数。根据微分学中多元函数求极值的方法,假设使Q到达最小,那么应有:i=1、2.、")经整理得:汕o+1)l+%)%+()-y(X)%+(lx;)l+(LrlX2)b2+(x1xm)hm=xly(9-2)«(£占)b0+(匕2rl)+(力;)*2+'+(jX",N=2yJ%+(Jj)l+(xx2)%+()仇"=K,y由方程组(9-2)中的第一个方程可得%=手一仇g-%务-抉3)即勾=AEdz假设记(/此=1、2、,、血;FH盍by-b-b1x2心心分别代入方程组(9.2)中的后初个方程,经整理可得到关于偏回归系数4、力2、,的正规方程组(normalequations)为:SS向+5色力2+5Rm=5%ISg向+SS2b2+"+SEtnbM=S鸟。(4)SPir高+5&也+SSmbn=SPin0解正规方程组(9-4)即可得偏回归系数%、%、,,的解,而于是得到,"元线性l三l归方程,"元线性回归方程的图形为,"+1维空间的一个平面,称为回归平面;%称为回归常数项,当x=x2=x,"=0时,S=O,在面有实际意义时,%表示y的起始值;(z=K2、W)称为依变量y对自变量Xi的偏I5I归系数(Partialregressioncoefficient),表示除自变量Xi以外的其余,M-I个自变量都固定不变时,自变量占每变化-个单位,依变量y平均变化的单位数值,确切地说,当也0时,自变最n每增加一个单位,依变量),平均增加4个单位;当4<0时,自变量Xi每增加一个单位,依变量y平均减少许个单位。假设将坛=了-AM-%了2勾心代入上式,那么得$=予+仇(Xl-x)+2(x2-x2)+-+,F(xrtl观)9-5)(9-5)式也为y对X|、x2、Xnt的,"元线性回归方程。对于正规方程组9-4),记SSls&S%SS2ri.S6巾SP2m>»b=队一&8=SP20SPfnlSPf2ssm_5吃0A=那么正规方程组(9-4)可用矩阵形式表示为9-6)即Ab=B其中A为正规方程组的系数矩阵、b为偏回归系数矩阵(列向最)、8为常数项矩阵(列向吊:)。设系数矩阵A的逆矩阵为C矩阵,即AT=C,那么其中:C矩阵的元素(i,J=l、2、,")称为高斯乘数,是多元线性l三l归分析中显著性检验所需要的。关于求系数矩阵4的逆矩阵A"的方法有多种,如行(或列)的初等变换法等,请参阅线性代数教材,这里就不再赘述。时于矩阵方程9:)求解,有:即:4 %(9-8)关于偏回归系数力、坛、勾的解可表示为:也=CUS片U+c5%llcSPtM9-9)(i=l,2、,m)或者"=Zqm用而b0=y-blxi-b2x2bmxm【例9.1】猪的瘦肉量是肉用型猪育种中的重要指标,而影响猪瘦肉量的有猪的眼肌面积、胴体长、膘厚等性状。设依变量y为瘦肉量(口),自变量,为眼肌面积(Cm2),自变量心为胴体长(tm),自变量与为膘厚(三),根据三江猪育种组的54头杂种猪的实测数据资料,经过整理计算,得到如下数据:试建立y对X|、*2、*3的三元线性回归方程9=%+4内+打2+力3x3-将上述有关数据代入(9-53式,得到关于偏5归系数4、多、&的正规方程组:用线性代数有关方法求得系数矩阵的逆矩阵如下:0.001187 -0.000040 0.000403-0.000040 0.001671 0.005410 =0.0004030.0()54100.089707C32CI3C23根据式(9-8),关于仇、坛、名的解可表示为:即关于bl、b2,b3的解为:而=y-frx1-b2x2-3¾于是得到关于瘦肉量y与眼肌面积占、胴体长小、膘厚X3的三元线性回归方程为:三)多元线性回归方程的偏离度以上根据最小二乘法,即使偏差平方和±(y-f)2最小建立了多元线性回归方程。偏差平方和±(y-9)2的大小表示了实测点与回归平面的偏离程度,因而偏差平方和又称为离回归平方和。统计学已证明,在m元线性回归分析中,离回归平方和的自由度为("-昨1)。于是可求得离f三l归均方为e(y-5)2/(n-m-)o离回归均方是模型(9-1)中。2的估计值。离回归均方的平方根叫离回归标准误,记为S*Em(或简记为SJ,即Sy.a.M=S=qZly-旷/(Hi-I)9-10离回归标准误S,.2m的大小表示了回归平面与实测点的偏离程度,即回归估计值方与实测值y偏离的程度,于是我们把离回归标准误S"2m用来表示回归方程的偏离度。离I可归标准误5,.2大,表示回归方程偏离度大,离回归标准误Sy'."小,表示回归方程偏离度小。利用公式Z(y-»)2计算离回归平方和,因为先须计算出各个回归预测值9,计算量大,下面我们将介绍计算离l三l归平方和的简便公式。二、多元线性回归的显著性检验一)多元线性回归关系的显著性检验在畜禽、水产科学的许多实际问题中,我们事先并不能断定依变量y与自变量与、4、4之间是否确有线性关系,在根据依变量与多个自变量的实际观测数据建立多元线性回归方程之前,依变量与多个自变量间的线性关系只是一种假设,尽管这种假设常常不是没有根据的,但是在建立了多元线性l三l归方程之后,还必须对依变量与多个自变量间的线性关系的假设进行显著性检验,也就是进行多元线性回归关系的显著性检验,或者说对多元线性回归方程进行显著性检验。这里应用F检验方法。与直线回归分析即一元线性回归分析一样,在多元线性回归分析中,依变量y的总平方和SS,可以剖分为回归平方和SSR与离回归平方和SSr两局部,即:SSy=SSR+SSr(9-11)依变量y的总自由度#;也可以剖分为ISI归自由度必与离l三l归自由度"两局部,即:dfy=dfR+dfr(9-(9-11)与(9-12)两式称为多元线性回归的平方和与自由度的划分式或剖分式。在(9-11)式中,SsV=E(y-反)2反映了依变量y的总变异:SSR=E(,-反)2反映了依变量与多个自变量间存在线性关系所引起的变异,或者反映了多个自变量对依变量的综合线性影响所引起的变异:5S,=e(),-四2反映了除依变量与多个自变量间存在线性关系以外的其他因素包括试验误差所引起的变异(9-11)式中各项平方和的计算方法如下:SS,=y2-(y)2nS兄=blSPl0+35o+-+bSPik0=2尸此19-12)S=IS5=SSy-SSR(9-12)式中各项自由度的计算方法如下:在上述计算方法中,m为自变量的个数,"为实际观测数据的组数。在计算出S%、dfR与SSr、,仇之后,我们可以方便地算出回归均方MSR与离回归均方MS,:检验多元线性问归关系是否显著或者多元线性l三l归方程是否显著,就是检验各自变量的总体偏同归系数自(?=1、2、m)是否同时为零,显著性检验的无效假设与备择假设为:在从成立条件下,有f=(dfl=df,df2=dfr)(9-14由上述F统计量进行F检验即可推断多元线性回归关系的显著性。这里特别要说明的是,上述显著性检验实质上是测定各自变量对依变量的综合线性影响的显著性,或者测定依变量与各自变量的综合线性关系的显著性如果经过F检验,多元线性回归关系或者多元线性Pl归方程是显著的,那么不一定每一个自变量与依变量的线性关系都是显著的,或者说每一个偏问归系数不一定都是显著的,这并不排斥其中存在着与依变量无线性关系的自变量的可能性。在上述多元线性Pl归关系显著性检验中,无法区别全部自变量中,哪些是对依变量的线性影响是显著的,哪些是不显著的。因此,当多元线性回归关系经显著检验为显著时,还必须逐一对各偏回归系数进行显著性检验,发现和剔除不显著的偏回归关系对应的自变最。另外,多元线性回归关系显著并不排斥有更合理的多元非线性回归方程的存在,这正如直线回归显著并不排斥有更合理的曲线回归方程存在一样。对于【】,建立的三元线性回归方程为:现在对三元线性回归关系进行显著性检验。已计算得:并且="-1=54-1=53df产m=3斯=-,-1=54-3-1=50列出方差分析表,进行6检验:表97三元线性回归关系方差分析表变异来源SSMS尸回归39493*米离l三l归50总变异53由方=3、好2=50查F值表得f*.50网.20,因为Q%5),P<OOl。说明,猪瘦肉量y与眼肌面积x、胴体长x2、膘厚心之间存在极显著的线性关系,或者眼肌面积X1、胴体长小、膘厚心对瘦肉量F的综合线性影响是极显著的。二偏回归系数的显著性检验当多元线性回归关系经显著性检验为显著或极显著时,还必须对每个偏回归系数进行显著性检验,以判断每个自变量对依变量的线性影响是显著的还是不显著的,以便从回归方程中剔除那些不显著的自变量,重新建立更为简单的多元线性回归方程。偏回归系数仇(i=l、2、m)的显著性检验或某一个自变量对依变量的线性影响的显著性检验所建立的无效假设与备择假设为:H°:仇=0,Ha:0产。(i=l'2、?)有两种完全等价的显著性检验方法-检验与f检验。1、r检验%=-i-,f=一?一1,(i=l、2、加)(9-15)式中Sa=Smm病为偏回归系数标准误;5v,12.m=件()'_)'):=为离同归标准误;Yk-m-1%为C=A的主对角线元素。2、尸检验在多元线性回归分析中,回归平方和SSR反映了所有自变量对依变量的综合线性影响,它总是随着自变量的个数增多而有所增加,但决不会减少。因此,如果在所考虑的所有自变量当中去掉一个自变量时,回归平方和SSR只会减少,不会增加。减少的数值越大,说明该自变量在回归中所起的作用越大,也就是该自变量越重要。设SSK为,"个自变量X、x2、Am所引起的回归平方和,SSi为去掉一个自变量看后,"一1个自变量所引起的回归平方和,那么它们的差SSR-SSZ即为去掉自变量X:之后,回归平方和所减少的量,称为自变量七的偏回归平方和,记为SS',即:可以证明:SS 瓦="2 c -li(<-1, 2,、M)9-16)偏l三l归平方和可以衡量每个自变量在三l归中所起作用的大小,或者说反映了每个自变量对依变量的影响程度的大小。值得注意的是,在i般情况下,这是因为切个自变量之间往往存在着不同程度的相关,使得各自变量对依变量的作用相互影响。只有当,"个自变量相互独立时,才有偏回归平方和SS",是去掉一个自变量使回归平方和减少的局部,也可理解为添入一个自变最使回归平方和增加的局部,其自由度为1,称为偏回归自由度,记为方ft,即必,=1。显然,偏回归均方MSa为MSbiSStlJdfbi=SSb=bl!cii(曰、2、m)(9-17)检验各偏l三l归系数显著性的F检验法应用下述F统计量:Ftf=MShjMSr,(df=l,dj=n-m-D(z=l,2,、?)(9-18可以将上述检验列成方差分析表的形式。对于【】,我们已经进行了三元线性问归关系的显著性检验,且结果为极显著的。现在对三个偏回归系数分别进行显著性检验。,检验法:首先计算然后计算各统计量的值:- *0.05(50)、由毋="-m-l=50查f值表得ro05(5>=2.008/0.01(50)=2.678因为H>0砒5(>)、Ll<%.05(50),所以偏回归系数也是极显著的,而偏回归系数"、03都是不显著的。F检验法:首先计算各个偏l三l归平方和:进而计算各个偏回归均方:最后计算各F的值;由必=1,力=50查F值表得凡.051.so:=4.03,Fo.o<.so)=7.I7因为7Al>凡小阿,<Fom(I.50>Fhi<F0,05,.50),因此偏回归系数历极显著,而偏回归系数厉、加均不显著。这与r检验的结论是一致的。也可以把上述偏I可归系数显著性检验的F检验结果列成方差分析表的形式:表9-2偏回归系数显著性检验方差分析表变异来源SS或MSF*的偏回归I15.378*它的偏回归I心的偏回归1离回归50()自变量剔除与重新建立多元线性回归方程当对显著的多元线性回归方程中各个偏回归系数进行显著性检验都为显著时,说明各个自变量对依变量的单纯影响都是显著的。假设有一个或几个偏Pl归系数经显著性检验为不显著时,说明其对应的自变量对依变量的作用或影响不显著,或者说这些自变量在回归方程中是不重要的,此时应该从回归方程中剔除一个不显著的偏回归系数对应的自变量,重新建立多元线性回归方程,再对新的多元线性回归方程或多元线性回归关系以及各个新的偏回归系数进行显著性检验,直至多元线性回归方程显著,并且各个偏I可归系数都显著为止。此时的多元线性回归方程即为最优多元线性回归方程(thebestmultiplelinearregressionequation)<>1、自变量的剔除当经显著性检验有几个不显著的偏回归系数时,我们一次只能剔除一个不显著的偏三l归系数对应的自变量,被剔除的自变量的偏三l归系数,应该是所有不显著的偏回归系数中的尸值(或Irl值、或偏回归平方和)为最小者。这是因为自变量之间往往存在着相关性,当剔除某一个不显著的自变量之后,其对依变量的影响很大局部可以转加到另外不显著的自变量对依变量的膨响上。如果同时剔除两个以上不显著的自变量,那就会比拟多地减少回归平方和,从而影响利用回归方程进行估测的可靠程度。2,重新进行少一个自变量的多元线性回归分析我们一次剔除一个不显著的偏回归系数对应的自变量,不能简单地理解为只须把被剔除的自变量从多元线性回归方程中去掉就行了,这是因为自变量间往往存在相关性,剔除一个自变量,其余自变量的偏回归系数的数值将发生改变,回归方程的显著性检验、偏三1归系数的显著性检验也都须重新进行,也就是说应该重新进行少一个自变量的多元线性回归分析。设依变吊:y与自变量XI、x2、Xm的m元线性回归方程为:如果X,为被剔除的自变量,那么m-1元线性回归方程为:a=瓦+可+%,+%Xj+1+%Xln(9-19)我们可以应用前面介绍过的m元线性回归方程的建立方法根据实际观测数据建立m-l元线性回归方程,但是这需要重新进行大量的计算。下面介绍利用,"元线性Pl归方程与,"-1元线性回归方程的对应偏回归系b,与工的关系以及,"元正规方程组系数矩阵逆矩阵C的元素与"卜1元正规方程组系数矩阵逆矩阵C'的元素之间的关系建立S-I元线性回归方程的方法。设关于ml元线性回归方程(9-19)中的偏回归系可、与、63、"-i、以的正规方程组系数矩陈的逆矩阵为C',其各元素为:味(/、A=1、2、Ll、任1、m;ji;kwi)可以证明:c'jk=ejk-(9-20)式中勺*、q,.、%均为机元正规方程组系数矩阵逆矩阵C的元素。这样我们就非常方便地计算出新的""阶逆矩阵C'的各元素,以进行"N元线性回归方程的偏回归系数号的显著性检验。还可以证明,小1元线性回归方程中的偏回归系数"与根元线性回归方程中偏回归系数力之间有如下关系:b,j-bj-bjCy-I>2、z-1,?+1、用):9-2)(9-21)式说明了可以利用原来的m元线性回归方程中的偏回归系数和m元正规方程组系数矩阵的逆矩阵C的元素%来计算剔除-个自变量之后新的m-1元线性回归方程中的各偏回归系数。而新的m-1元线性问归方程中常数项汇由下式计算:*=j"'$-%豆矶品I瓦,X1(9-225于是我们利用(9-21)和(9-22)式可以方便地算出新的,加1元线性回归方程中的各个偏回归系数及常数项,这样即建立了剔除一个自变量之后新的m-1元线性回归方程:在重新建立机-1元线性回归方程之后,仍然需要对m-1元线性回归关系和偏回归系数巧进行显著性检验,方法同前,但一些统计量需要重新进行计算.对于卜1元线性回归方程(9-19):回归平方和SSr=W0+KtSQto+%F%.°+%S%o回归自由度dfR=m-1离回归平方和SSr=SS,-SSR离问归自由度".="-m对偏回归系数用进行显著性检验时:而新的偏回归平方和为:55%=2t<上式中的MS仍为新的离回归均方。重复上述步骤,直至三归方程显著以及各偏l三l归系数都显著为止,即建立了最优多元线性l三l归方程。对于【】,建立的三元线性回归方程为经显著性检验,回归方程极显著,偏回归系数5极显著,而历、历都是不显著的。因为几<%,所以剔除偏回归系数62对应的自变量X2(胴体长),重新建立瘦肉量y对眼肌面积片、膘厚心的二元线性回归方程:根据(9-21)式:计算可和耳。这里i=2,J=L3。而%由(9-22)式计算:于是重新建立的二元线性回归方程为:现在对二元线性回归方程或者二元线性回归关系进行显著性检验。己计算得:列出方差分析表,进行F检验:表9-3二元线性回归关系方差分析表变异来源SSdfMSF回归212.598*离l三l归51总变异53由力;=2,/=51应用线性内插法求临界F值,得FOOl2"=5.05,因为QF仅5",尸<0.01,说明二元线性回归关系或二元线性回归方程是极显著的。下面对偏回归系数可和进行显著性检验,这里应用F检验法:首先应用(9-20)式计算关于可、居的正规方程组系数矩阵的逆矩阵C'的主对角线上的各元素,这里i=2,八右1、3。下面计算偏回归平方和:列出方差分析表,进行F检验:表9-4偏回归系数显著性检验方差分析表变异来源SSMS产X|的偏可归115.294*/的偏I可归18.500*离回归51由如=1,<2=51应用线性内插法求临界f值,得F(,5n=7.16,因为、人均大于&Mg),说明二元线性回归方程的偏回归系数可和4都是极显著的,或者说明眼肌面积8、膘厚X3分别对瘦肉量F的线性影响都是极显著的。于是我们得到【】的最优二元线性回归方程为:回归方程说明:猪的瘦肉最与眼肌面积、膘厚有着极显著的线性回归关系。当膘厚性状保持不变时,眼肌面积性状每增加ICm2侬:而当眼肌面积性状保持不变时,膘厚性状每增加Icmkg.该回归方程的离回归标准误为:四)自变量主次的判断在实际应用中,我们经常需要对最优多元线性PI归方程中的自变量进行主次判断,以便抓住主要矛盾,更好地解决实际问题。1,标准偏回归系数standardpartialregressioncoefficientJ的比拟为第,个自变量看的标准偏回归系数。式中:k =bi- = bi ,(i = l,2,.n)(9-23),为第i个自变量七的样本标准差,凡为依变最y的定义样本标准差。标准偏回归系数为不带单位的相对数,其绝对值的大小可以衡量对应的自变量对依变量作用的相对重要性。标准偏回归系数又称"通径系数",其应用请参阅本章第五节。在多元线性回归分析中,在各自变量之间无显著相关的情况下,可以比拟各标淮偏回归系数绝对值的大小,大者,其对应的自变量对依变量的作用是主要的。2、偏回归平方和的比拟在多元线性回归分析中,当自变量间存在着显著相关时,或者当无法判断各自变量间的相关性时,应比拟各自变量的偏三1归平方和SS毋(i=l、2、m)的大小来判断各自变量对依变量影响的主次,但凡偏回归平方和大的自变量,其对依变量的作用一定是主要的。对于【】建立的最优二元线性回归方程:己算得S%=14.1839,SSX=7.8843因为SShi>SS月,所以在上述二元线性回归方程中,自变量x(眼肌面积)对依变量y(瘦肉量)的影响是主要的。*第二节复相关分析一、复相关的概念及意义研究一个变量与多个变量的线性相关称为复相关分析(analysisofmultiplecorrelation).从相关分析角度来说,复相关中的变量没有依变量与自变量之分,但是在实际应用中,复相关分析经常与多元线性回归分析联系在一起,因此,复相关分析一般指依变量y与"1个自变量切、X2、Xm的线性相关。在多元线性回归分析中,如果加个自变量对依变量的回归平方和SSR占依变量),的总平方和SSy的比率越大,那么说明依变量y和,"个自变量的线性联系越密切,或者说明依变量y与,"个自变量的线性相关越密切,因此定义:R2=SSrSSy(9-24)为y与xi、x2、Xm的复相关指数,简称相关指数(correlationindex)«相关指数N表示多元线性回归方程的拟合度,或者说表示用多元线回归方程进行预测的可靠程度。显然,定义:R=麻"欣7(9-25J为依变量y与,"个自变量内、X2、Xm的复相关系数(multiplecorrelationcoefficient)<>复相关系数表示y与XI、X2、Xnl的线性关系的密切程度,由于9包含了XI、X2、Xm的综合线性影响,因此,y与用、X2、Xm的复相关系数也就相当于y与g的简单相关系数,即/?=ry.(9-265复相关系数的取值范围为:0R41.在自由度一定时,/?愈近于1,复相关愈密切;愈近于0,愈不密切.二、复相关系数的显著性检验复相关系数的显著性检验也就是对y与刘、X2、Xm的线性关系的显著性检验,因此,复相关系数的显著性检验与相应的多元线性回归关系的显著性检验或多元线性回归方程的显著性检验是完全等价的。复相关系数R的显著性检验有两种方法-F检验法与查表法。一尸检验法设0为y与XI、X2、Xm的总体复相关系数,尸检验的无效假设与备择假设为:由1述F统计量检验K的显著性:Rm(/-W)/("-,”,3 =m,df2 = "-,“-1)-1)(9-27)注意:因为/?2=静,代入(9-27)式得说明利用(9-27)式计算的R值实际上就是多元线性ISI归关系显著性检验一一产检验计算的尸值,也就是说复相关系数的显著性检验与多元线性回归关系的显著性检验是完全等价的。二)查表法对于(9-27)式,由于在方、疗2一定时,给定显著水平的F值一定,因此,可计算出相应于显著水平0时的临界我值:并将其列成表。因此复相关系数显著性检验可用简便的查表法进行。由中="-切-1和变量的总个数M=WI+1查附表8r和R的显著数值表得临界R值:&.研"一吁.")、仆。15-M-I.M"将R与KMM(HT*)、R(M)Mn-LM)比拟:对于【例9.1】,依变量y(瘦肉量)与自变量X(眼肌面积)、X2(胴体长)、X3(膘厚)的复相关系数由于FR =RmO.6O2423(1- R2)("-m-l)(l-0.60242)/(54-3-1)= 9.493*, (Fo,o 3. 50' =4.20)说明R极显著。注意,这里的Qi值与三元线性回归关系显著性检验的F值是相同的。假设用查表法,那么由疗=,"1=50与M=,"+l=3+l=4查附表8得RlOlso.4)=0.449,因为>.oiso*4<PVO.01,故Zf为极显著。显著性检验结果说明,猪的瘦肉量与眼肌面积、胴体长、膘厚间存在极显著的复相关。由于篇幅的限制,附表8仅列出了M=3,4,5的临界R值。假设M>5,那么采用F检验或根据多元线性回归关系显著性检验的结果来推断复相关系数的显著性。*第三节偏相关分析多个相关变量间的关系是较为复杂的,任何两个变量间常常存在不同程度的简单相关关系,但是这种相关关系又包含有其他变量的影响。因此简单相关分析即直线相关分析没有考虑其他变量对这两个变量的影响,简单相关分析实际上并不能真实反映两个相关变量间的相关关系。而只有消除了其他变量的影响之后,研究两个变量间的相关性,才能真实地反映这两个变量间相关的性质与密切程度.偏相关分析就是固定其他变量不变而研究某两个变量间相关性的统计分析方法。一、偏相关系数的意义与计算一偏相关系数的意义在多个相关变量中,其他变量保持固定不变,所研究的两个变量间的线性相关称为偏相关(partialcorrelation)<.用来表示两个相关变量偏相关的性质与程度的统计量叫偏相关系数(partialcorrelationcoefficient)0根据被固定的变量个数可将偏相关系数分级,偏相关系数的级数等于被固定的变量的个数.当研究2个相关变量XI、X2的关系时,用直线相关系数小表示Xl与X2线性相关的性质与程度。此时固定的变量个数为0,所以直线相关系数r2又叫做零级偏相关系数。当研究3个相关变量制、也、X3的相关时,我们把X3保持固定不变,用与X2的相关系数称为H与X2的偏相关系数,记为r133,类似地,还有偏相关系数"3.2、m=这3个偏相关系数固定的变量个数为1,所以都叫做一级偏相关系数。当研究4个相关变量第、也、心、g的相关时,须将其中的2个变量固定不变,研究另外两个变量间的相关。即此时只有二级偏相关系数才真实地反映两个相关变量间线性相关的性质与程度。二级偏相关系数共有C:=6个:n234,H3-24»门423,2314,2413,34.12。-般,当研究切个相关变量Xm的相关时,只有将其中的"2个变量保持固定不变,研究另外两个变量的相关才能真实地反映这两个相关变量间的相关,即此时只有m-2级偏相关系数才真实地反映了这两个相关变量间线性相关的性质与程度。,加2级偏相关系数共有C=m(m-2)/2个。Xi与Xj的m-2级偏相关系数记为ij.(<J=1,2,.,m,ij)偏相关系数的取值范围为-1,1,BP:-ly,l.二)偏相关系数的计算1、一级偏相关系数的计算设三个相关变量占、七、X3共有"组实测数据:序号*2*3IKMj*312工口j"修"修"*3.级偏相关系数UJ由零级零相关系数即直线直关系数计算,计算公式为:(9-28)2、二级偏相关系数的计算J(I一帝)(1-32)设四个相关变量占、占、占、必共有"组实测数据:序号工1心/41工“可-Ql2xI2x222x42乙,加看网工痴二级偏相关系数可由级偏相关系数计算,计算公式为:_G3一24Jg4(l-64.)(1i)(9-29)3、m3级偏相关系数的计算设m个相关变量朴巧、,共有"组观测数据:序号/1 打5/n2 占2*222m-2级偏相关系数的计算方法如下:首先计算简单相关系数即宜线相关系数分:jj=,(i,j=l、2、"i)(9-30)其中:SPii=xi-xi)(xj-xj),SSi=Y(Xi-Xi)2,SSj=E(Xjs,并由简单相关系数句组成相关系数矩阵R:R=小N+rm%(9-31)喙2然后求相关系数矩阵R的逆矩阵C:cII cI12CmC=RT=°"?cm(9-32:.tml%2Jm.那么相关变量七与七的m一2级偏相关系数9.的计算公式为:%-(i,j=h2、m:ij)(9-33)二、偏相关系数的显著性检验一f检验法设相关变量占与勺的总体偏相关系数为/,那么对偏相关系数分进行显著性检验的无效假设与备择假设为:%,:&.=。,a'Pih(>,检验公式为:=-=,",df=n-m(9-34)",S“J(l-%j'("-m)(9-34)式中,5.为偏相关系数标准误,Sr工:"为观测数据组数,m为相关变量总个数。,i%Yn-m注意,"个相关变量的偏相关分析中的",指相关变量的总个数;机元线性回归分析中的m指自变量的个数;这两种分析方法中的用所表达的意义是不同的。(二)查表法由或="-"?及变量个数2查附表8,和R显著数值表得n).o5<n-m,2>.moigmj)。将偏相关系数的绝对值I%I与m05m-m2)、mosm.2)进行比拟,即可作出统计推断。对【例9.1】资料进行偏相关分析。注意,此时相关变量总个数Tn=4。首先由【例9.1】的SSSS2、SS3、SSy、S片2、S%、SP23、S%r¾SAO计算变量y、xp0、与间的简单相关系数:相关系数矩阵用为:然后求得相关系数矩阵R的逆矩阵C为:因为我们需要研究的是瘦肉量(y)与眼肌面积(xi)、胴体长(七)、膘厚(的二级偏相关系数,由(9-33)式可以算得:现在对上述三个二级偏相关系数进行7检验:由df=-E=544=50杳r值表得fo.05(50)=2.008、fto<5>=2.678,因为trni2jl>j.q<5o>,P<0.01,所以为23为极显著:而r(ou<Q5<5O),I'%"<.O5(5O>,P>005.因此,柩/"2都是不显著的。如用查表法对上述三个二级偏相关系数进行显著性检验,那么由行="-,"=54-4=50以及变量个数为2查附表8和R显著数值表得7-0.05(50)=0273,r00l(50)=0.354,因为n.23>&m(5o>而()2.13<e05(5S、k)3.12<0.05<50),所以zO1.23为极显著,zigJ3、,03.12都是不显著的,这与,检验结论-致。显著性检验结果说明,瘦肉量5)与眼肌面积(XI)呈极显著的正的偏相关,而瘦肉量(y)与胴体长(X2)、膘厚(由)的偏相关均为不显著。从以上分析中,我们看到简单相关系数W=0.4680.出=().332&价=-O.36O5,在数值上分别与相应的二级偏相关系"023、4).13、牧(.12是有差异的。经显著性检验,制、Fo都是极显著的,小是显著的,而这与对应的二级偏相关系数的显著性也是不完全-致的。造成偏相关系数与简单相关系数在数值上相差的原因就在于各自变量间的相关性。在多变量资料中,偏相关系数与简单相关系数在数值上可以相差很大,甚至有时连符号都可能相反。只有偏相关分析才能正确地表示两个变量间的线性相关的性质和程度,才真实反映r两变量间的本质联系。而简单相关分析那么可能由于其他变量的影响,反映的两个变量间的关系只是非本质的外表联系,所以是不可靠的。因此,对多变量资料进行相关分析时,应进行偏相关分析。*第四节多项式回归一、多项式回归概念研究一个依变量与一个或多个自变量间多项式的回归分析方法,称为多项式回归(polynomialregression)0如果自变量只有一个时,称为一元多项式回归:如果自变量有多个时,称为多元多项式回归。一元m次多项式回归方程为:y=b0+bix+b2x2+bmxm(9-35)二元二次多项式回归方程为:y-+x+j,+xl2+4x+jcl(9-36)在一元回归分析中,如果依变量y与自变量X的关系为非线性的,但是又找不到适当的函数曲线来拟合,那么可以采用一元多项式回归。多项式回归的最大优点就是可以通过增加X的高次项对实测点进行逼近,立至满意为止。事实上,多项式回归可以处理相当一类非线性问题,它在回归分析中占有重耍的地位,因为任一函数都可以分段用多项式来逼近。因此,在通常的实际问题中,不管依变量与其他自变量的关系如何,我们总可以用多项式回归来进行分析。二、多项式回归分析的一般方法多项式回归问题可以通过变量转换化为多元线性回归问题来解决。对