方差分析知识点总结.docx
第六章方差分析(它是用以检验两个或多个均数间差异的假设检验方法。它是一类特定情况下的统计假设检验,或者说是平均数差异显著性检验的一种引伸。)一、方差分析与t检验的关系t检验可以判断两组数据平均数间的差异显著性;方差分析既可以判断两组又可以判断多组数据平均数之间的差异显著性。二、方差分析的数学模型用线性模型(linearmodel)来描述每一观测值:Xij-P+T+£ij(i=l,2,3,k;j=l,2,3,n)M一总体平均数Ti一处理效应J一试验误差Xij一是在第i次处理下的第j次观测值三、方差分析所需用到的各计算分析值以及F检验变异来源平方和自由度均方MSF值FoosFoOiSSaw 组间MStMSe组间SSdf=k-lt组间tSS /df 级内 组内组内SSe组内dfe=k(n-l)总变异SSdf=nk-lT/T计算步骤:计算矫正数一(C=X2欣)1SS=EEx2-C;SS=-ZX.2C;SS=SS-SS9tnietdn=nk-1;%=k-tdf=df-dfMSl=SSlZdfl;MSe=SSeZdfeF值:MSlMS例题:例5-1以淀粉为原料生产葡萄糖过程中,残留的许多糖蜜可用于酱色生产。生产酱色之前应尽可能彻底除杂,以保证酱色质量。今选用5中除杂方法,每种方法做4次试验,试验结果见表5-2,试分析不同除杂方法的除杂效果?表5-2不同除杂方法的除杂量g/kg除杂方法(A)除杂量(X)合计(X)平均方差S2Al25.624.425.025.9100.925.20.442A227.827.027.028.0109.827.50.277A327.027.727.525.9108.127.00.649A429.027.327.529.9113.728.41.543A520.621.222.021.285.021.30.330x.=5亿5单因素试验,处理数k=5,重复数n=4°各项偏差平方和及自由度计算如下:矫正数:C=x1nk=517.52/(4x5)=13390.3125SSr=EExi-C总偏差平方和:=25.62+24.42+÷21.22-13390.3125=138.1975SSTZX.2-Ctni处理间(不同除杂方法间)的偏差平方和:=1(100.92+109.82+IO8.12+113,72)-C4=13518.7875-13390.3125=128.4750处理内(误差)的偏差平方和:SSe=SSTSS1=138.1975-128.4750=9.7225总自由度:6ffr=-l=4x5-1=19处理间自由度:df=A:-1=5-1=4t处理内自由度:dfe=df-df,=19-4=15用SSt>SSe分别除以dft和dfe便可得到处理间均方MSt及处理内均方MSeMSl=SSlZdfl=128.475/4=32.12MX=SSJ次=9.7225/15=0.65制作方差分析表:处理间128.475432.1249.4275)=105*F-4.89MK4.1S)处理内9.7225150.65总变异138.197519变异来源偏差平方和 自由度均方 F值F临界值显著性因为F=MStMSe=32.12/0.65=49.42*;根据dfl=dftdf2=dfe=15查附表4,得F0.01(4,15)4.89;因为F>F0.01(4,15)=4.89,P<0.01表明5种不同除杂方法间的除杂效果差异极显著,不同除杂方法除杂效果不同。四、多重比较(LSD法&LSR法)1、最小显著差数法(LSD法)先计算出达到差异显著的最小差数,记为LSD.;用两个处理平均数的差值绝对值IXi-X21与LSDa比较;计算过程:先计算S_=:2MS/n(11rp)%-厂厂xes-MSS(查t值表得:to.05(dfe)=t.05(15)=2.131t.01(dfe)=t.01(15)=2.947所以,显著水平为0.05与0.01的最小显著差数为:1.SDOoSdS-=2.131义0.570=1.211.SD=tS,S_=2.947义0.570=L68j.用两个处理平均数的差值绝对值IXi-X2I与LSD“比较:若I1-2T>LSD,则拒绝,即Xl和x2在给定的a水平上差异显著;若I1-21LSD,则接受“,即Xl和x2在给定的a水平上差异不显著2、LSD法的结果表示方法(LSD法适用于各处理组与对照组比较而处理组间不进行比较的比较形式。)(1)标记字母法差异显著性除杂方法0.050.01A428.4aAA227.5abAA327.0bAAl25.2CBA521.3dC表5T05种除杂方法除杂效果多重比较结果(SSR法)分析:由表5-10可以看出,在a=0.05水平下,A4与A2、A2与A3均数间差异不显著,其余均差异显著;在a=0.01水平下,A4、A2、A3三者均数间差异不显著,其余差异显著。梯形比较法表5-45种除杂方法除杂效果多重比较结果(LSD法)除杂法Xi.X-21.31.X-i.25.2X27.0%27.5A428.47.L*3.21.4*0.9A227.56.2-2.3杆0.5LSD=1.21,327.05.7-1.8*0.05LSDo.Oi-1.68Al25.23.9-A521.3结论:除A4与A2、A2与A3差异不显著外,其余方法之间的差异达到显著或极显著水平。A4除杂效果最好,A5效果最差。3、LSR法(最小显著极差法)q检验利用q检验法进行多重比较时,为了简便起见,是将极差与与建展比较,从而作出统计推断。qS一称为a水平上的最小显著极差。即:LSRk=q例)S_;其中S_=<MS/n当显著水平。=0.05和0.01时,从附表5(q值表)中根据自由度df及秩次距ek查出qo05q«)和qoo7沏I)代入(5-19)式求得LSR;9.05,kq.O5(Jt)'x1.SRO.O1,kQoxn(d',k)利用q检验法进行多重比较时,步骤如下:(1)列出平均数多重比较表;(2)由自由度dfe、秩次距k查临界q值,计算最小显著极差LSRoQ5k,LSRooik;(3)将平均数多重比较表中的各极差与相应的最小显著极差LSR。5k,LSRMk比较,作出统计推断。对于【例5.1各处理平均数q法多重比较见表5-7。在表5-7中,极差0.9、0.5、1.8、3.9的秩次距为2;极差1.4、2.3、5.7的秩次距为3;极差3.2、6.2的秩次距为4;7.1的秩次距为5。因为MSe=O.65,故标准误5-为:S_=>MSn=.0.65/4=0.403根据dfe=15,k=2>3、4、5,由附表5查出a=0.05、0.01水平下临界q值,乘以标准误S一求得各最小显著极差,所得结果列于表5-8X表5-75种除杂方法除杂效果多重比较结果(q法)除杂方法X,元一21.3元一-25.2X27.0元一27.5A428.47.U3.2“1.40.9A227.56.2*2.3*0.5A327.05.7*1.8«Al25.23.9A521.3表5-8值及LSR值dfe秩次距kq0.05qo.oiLSR0.06LSR0.0123.014.171.211.6833.674.841.481.951544.085.251.642.1254.375.561.762.24将表5-7中的均数差数(极差)与表5-8中相应秩次距k下的LSR比较,检验结果标记于表中。检验结果,A4、A2、心三者差异不显著,其余两两均数间的差异极显著。随着秩次距的增加,检验尺度LSR值也在增加,可有效地控制犯I型错误的概率。新复极差法(SSR法)新复极差法与q检验法的检验步骤相同,唯一不同的是计算最小显著极差时需查SSR表(附表6)而不是查q值表。最小显著极差计算公式为1.SR,.k二SSRo(dfek)Sx5、:可根据显著水平。、误差自由度dfe、秩次距k,由SSR表查得的临界SSR。=0.05和a=0.01水平下的最小显著极差为:1.SRga=SSSRGoSdf.kS1.SRo.01,k=SSRo,Oi(.dj.k>SX对于【例5.1】分析,=0.403,依dfe=15,k=2、3、4、5,由附表6查临界SSRO.05(15,k)»SSRO.01(15,k)值,乘以Sx,求得各最小显著极差,所得结果列于表5-9o表5-75种除杂方法除杂效果多重比较结果(SSR除杂方法Xn元21.3Xi_25.2Xi-27.0法)Xi-27.5A428.47.1“3.2*1.4.0.9A227.56.2*2.3*0.5A327.05.7*1.8-A125.23.9*AS21.3表5-9SSR值与LSR值dfe秩次距kQo.osXXOlLSR0.06LSR0.0123.014.171.211.6833.164.371.271.761543.254.501.311.8153.314.581.331.854、多重比较的选择1.SD法W新复极差法Wq检验法当秩次距k=2时,取等号;秩次距kN3时,取小于号。在多重比较中,LSD法的尺度最小,q检验法尺度最大,新复极差法尺度居中。一般地讲,一个试验资料,究竟采用哪一种多重比较方法,主要应根据否定一个正确的HO和接受一个不正确的HO的相对重要性来决定。试验要求严格时,用q检验法较为妥当;生物试验中,由于试验误差较大,常采用新复极差法(二)单因素方差分析一、组内观察相同的方差分析如上二、组内观察次数不相等的方差分析1、计算修正公式TijSS=2(X21n)-CSS=SS-SSdf=N-lTedf=k-ldf=df-dfeTt因为各处理重复数不等,应先计算出平均重复次数n0来代替标准误S:飞MSFi中的n,122层n=-n-*tok-1/2ni【例5-3在食品质量检查中,对4种不同品牌腊肉的酸价进行了随机抽样检测,结果见表5-16,试分析4种不同品牌腊肉的酸价指标有无差异。表5-164种品牌腊肉酸价检测结果品牌(Ai)酸价(XDniAl1.61.52.01.91.31.01.21.411.91.498A21.7L92.02.52.71.812.62.106A30.91.01.31.11.91.61.59.31.337A41.82.01.72.11.52.52.213.81.977xi.47.628处理数k=4,各处理重复数不等。方差分析如下:(1)计算各项偏差平方和与自由度C=2TV=47.628=80.9200SS=EEX2C=(1.62+1.52+2.5z+2.22)80.9200'巧8800SS=E(X2M-C=(11.92/8+12.62/6+9.327+13.82/7)C=2.8027SS=SS-SS=3.0773df=N-1=281=27dfkl=41:3df=df4=273=24临界F值为:F0.05(3,24)=3.01,F0.01(3,24)=4.72,因为品牌间的F值(2)列出方差分析表,进行F检验为7.287>F0.01(3,24),故P<0.01,表明4个品牌腊肉的酸价有极显著差异。表5-174个品牌腊肉酸价方差分析表变异来源SSdfMSF值显著性品牌间2.802730.93427.287*误差3.0773240.1282总变异5.880027(3)多重比较因为各处理重复数不等,eE2n-÷P应先计算出平均重复次数no,1r82+62+72+72_C八”C_6.9762Zo一4-1(25那么,标准误为:S_=、;MSA0=v0.1282/6.9762=0.1356根据dfe=24,秩次距k=2,3,4,从附表5中查出a=0.05与a=0.01的临界q值,计算最小显著极差,所得结果列于表5-18o表5-18q值及LSR值dfe秩次距kq0.05q0.01LSR0.05LSR0.0122.923.960.3960.5372433.534.550.4790.61743.904.910.5290.666表5T94个种品牌腊肉酸价多重比较(q法)a =0.05a =0.01差异显著性A22.10aAA41.97aAA11.49bABA31.33bBnOA品牌i多重比较结果表明,A2与A4、Al与A3在5%水平上差异不显著,但A2,A4与Al,A3在5%水平上差异显著,即A2,A4的酸价高于Al,A3;A2,A4,Al在1%上差异不显著,但A2,A4与A3差异显著,AI与A3在1%上差异不显著。(三)二因素方差分析一、无重复观测值的二因素方差分析无重复观测值的二因素分组资料模式平均V+1P注:A因素有a个水平,B因素有b个水平,共计有ab个水平组合,每一组合观测一次,有ab个观测值(表5-20),Xij为A的第i水平与B的第j水平组合观测值。数据处理:%=1£.x,A的第i水平b个观测值之和i.bVJ=IY;£、"的第i水平b个观测值的平均数户IXXjiB的第j水平a个观测值之和Ul1X=£X,B的第j水平b个观测值的平均数JagX=££/ab个观测值的总和X=£XxJabab个观测值的总平均数F=I尸1交叉分组两因素无重复观测值的试验,A因素的每个水平有b次重复,B因素的每个水平有a次重复,每个观测值同时受到A、B两因素及随机误差的作用。因此全部ab个观测值的总变异可以分解为A因素水平间变异、B因素水平间变异及试验误差三部分;自由度也相应分解。偏差平方和与自由度的分解如下:SSt=SSa+SSb+SSdf=e#+#+名倾偏差平方和与自由度的计算公式为:总平方和C=%2ab总平方和SS=XZ(%-%)2-X%2-Cr-力因素偏差平方和ss=/£(%=X%2-ci.bL/.1B因素偏差平方和SS=4X(%)2=lX%2.C误差平方和SS=SST-SSA-SSb.总自由度df=ab-l4因素自由度B因素自由度Tdf=a-l误差自由度df=b-lBdfe=dfT-fA-dfB=(a-l)(b-l)MSA=SSaM相应均方为MSB=SSB/df,MSe=SSe/dfe例题:某厂现有化验员3人,担任该厂牛奶酸度(。T)的检验。每天从牛奶中抽样一次进行检验,连续10天的检验分析结果见表5-22。试分析3名化验员的化验技术有无差异,以及每天的原料牛奶酸度有无差异(新鲜牛奶的酸度不超过20oT)o化验员B1B2B3B4B5B6B7B8B9B10Xi.Xi.A111.7110.8112.3912.5610.6413.2613.3412.6711.2712.68121.3312.13A211.7810.712.512.3510.3212.9313.8112.4811.612.65121.1212.11A311.6110.7512.412.4110.7213.113.5812.8811.4612.94121.8512.19X.J35.1032.2637.2937.3231.6839.2940.7338.0334.3338.27364.3X.J11.7010.7512.4312.4410.5613.1013.5812.6811.4412.76力因素(化验员)有3个水平,即a=3;B因素(天数)有10个水平,即b¾aXb=3X10=30个观测值。1计算各项偏差平方和与自由度=x.2ab=364.302/(3x10)=4423.8163SS=EEX2C=(11.712+11.782+-+12.942)74423.8163二27.2509SS=bEX一气332+12122+121.852)CJ0.0283SS=/亍c(35侬+32.262+.一+3&272)CB=26.7591SS=SS-SS-SSCTAB-27.25090.02832a三3Bdf=ab1=3X101df=291=101=9d=dfdfdf=2929=18eTAB2列出方差分析表,进行F检验表6-22表5-22资料的方差分析表变异来源SSdfMSF值显著性化验员间0.028320.01420.550日期间26.759192.9732115.240*误差0.4635180.0258合计27.250929注:牛闻=工结果表明,3个化验员的化验技术没有显著差异,不同日期牛奶的酸度有极显著差异。3多重比较在两因素无重复观测值试验中,A因素每一水平的重复数恰为B因素的水平数b,故A因素的标准误为5-=MSsbb;同理,B因素的标准误S.MSa叱XJ对例5-4分析,a=3,MSe=O.0258。故S_=、MS/a=J0.0258/3=0.093x.je根据dfe=18,秩次距k=2,3,10,查临界q值,计算最小显著极差LSR,见表5-24表5-24q值与LSR值dfe秩次距kqo.osq0.01LSR0.05LSR0.0122.974.070.280.3833.614.70.340.4444.005.090.370.4754.285.380.400.501864.495.60.420.5274.675.790.430.5484.825.940.450.5594.966.080.460.57105.076.20.470.58B因素各水平均值多重比较结果见5-25测定日期Xjx.j-10.56X.-10.7511.4411.7012.4312.4412.6812.7613.10B713.583.022.832.141.881.151.140.900.820.48B613.102.542.351.661.400.670.660.420.34BlO12.762.202.011.321.060.330.320.08B812.682.121.931.240.980.250.24B412.441.881.691.000.740.01B312.431.871.680.990.73Bl11.701.140.950.26B911.440.880.69B210.750.19B510.56附表:多重比较结果字母表示*处理均值5%显著水平1%极显著水平B713.58aAB613.10bABBlO12.76beBCB812.68beBCB412.44CCB312.43CCBl11.70dDB911.44dDB210.75eEB510.56eE结果表明,除B2与B5,Bl与B4与B3,B8与B3、BlO与B3、B4、差异不显著外,其余不同测定日间牛奶酸度均差异极显著或显著。酸度最高的是B7,最低的是B5和B2。从牛奶质量要求看,连续IOd的牛奶酸度均在鲜奶范围内。二、两因素重复试验的方差分析(对两因素和多因素等重复试验结果进行的分析,可以研窕因素的简单效应、主效应和因素间的交互作用(互作效应)°)设A、B两因素,4因素有a个水平,B因素有b个水平,共有ab个水平组合,每个水平组合有n次重复试验,则全试验共有abn个观测值。试验结果的数据模式如表5-27所示。用因素,TJ除用合计无,用平均二无七.宜"占OM.&叱“JJ11f耳Ifa乐&H.dWJB,一X/7.4*、西川.'I,".,.J.J,.,yuA.乩含计也X-1J6a-显平均F.rI工.I-工七一,-两因素等重复试验数据模式(部分)A因素一B因素BAi合计Xi.BBXXXIll121IblXXXX.112122lb21AxXXX1Ul113123lb3XXXIln12nIbnX.X.X.X.U1112IbX.X.X.X.U1112Ib计算方法:vJ串每个组合处理n次重复之和1二Z/1=1'Wn/-/X.=工ErA因素第i水平bn个数据之和口二Ex/bni承i押X一二空MjB因素第j水平an个数据之和"1M"=EEX/ani11=1x.=EZEX承abn个数据总和x.=EEExjayni=1j*1Mi=1j=1'1偏差平方和与自由度分解SS=SS+SS+SS+SSdf=df+dfB+df:+df:SS=SS+SS+SSdfB=df+dfn+df;B各项平方和、自由度及均方的计算公式如下:矫正数C=X2/abn总平方和与自由度SS=ZZZe-Cfdf=abn因素水平组合平方和与自由度SSaB=ZZq-C,JfB=ab1/1因素平方和与自由度B因素平方和与自由度交互作用平方和与自由度误差平方和与自由度所以,相应均方为SS=ZCX2-C,df=a-1AbnASS=-zX2-C,df=b1BanJB巴B=SSABssaSSBdf=(a-l)×BSS=SStSSab,dfe-ab(n-1)MSA=SSNdfA,MSbSSb/dfn,usxbZAXhAXB'MSe-SSe/dfe列方差分析表,进行F检验表5-28方差分析表(固定模型)变异来源偏差平方和自由度方差F值显著性A因素SSAalSS(a-l)AMS/MSeAB因素SSBb-1SS/(b-l)BMS/MSeBAXBSSAXB(a-l)(b-l)SS/(a-l)(b-1)AXBMS/MSeAXB误差SSeab(n-l)总计SSTabn-l多重比较例题:现有3种食品添加剂对3种不同配方蛋糕质量的影响试验结果,试作方差分析表5-293种食品添加剂对3种不同配方蛋糕质量的影响配方(八)食品添加剂(B)BlB2B3876Al875866978A29978667810A3779689A因素(配方)有3个水平,即a=3;B因素(食品添加剂)有3个水平,即b=3;共有ab=3X3=9个水平组合;每个水平组合重复数n=3;全试验共有(1) 计算各项平方和与自由度C=Xllabn-20h(3×33)=1496.33SS=Z注XiC-(82+82+9?+9z)-C=40.67SSd££x2.c(242+202+.+282)-CABtl*3=30.00SS=-X2-CAbn/.一(6b+692+712)-C3x3=6.23SS=52-C=(701+65:+662)-CBCm/3x3=1.56SS=SS-SS-SSAXB=3捣6八23-l56=22.21SS=SSt-SSab=40.61-30.00=10.67df=abn-1=3x3x3-1=26#-1=3x34=8ABdf=a1=31=2df=b-1=3-1=2df=(«-1)(/?-1)=(3-1)(3-1)=4df×ab(w-1)=33(3-1)=18表5-30方差分析表异来源平方和由度均方F值显著性因素间6.2323.125.29*因素间1.5620.781.32AxB22.2145.559.41*误差10.67180.59总变异40.6726查临界F值:F0.05(2,18)=3.55,F0.01(2,18)=6.01;F0.01(4,18)=4.58O因为,FA>F0.05(2,18);FB<FO.05(2,18);FAXB>FO.01(4,18),表明不同配方、食品添加剂与配方的互作对蛋糕质量有显著或极显著影响,而食品添加剂间的差异不显著。因此,应进一步进行不同处理均数间、配方各水平均数间的多重比较。(3)多重比较因为A因素各水平的重复数为bn,故A因素各水平的标准误为:对本例而言S-MSfbtixL.eS.=q0.59/(3X3)=0.256X1.由dfe=18,秩次距k=2,3,从附表5中查出SSRO.05与SSRO.01的临界值,计算LSRfi,结果列于表5-31。表5-31配方各水平均数比较SSR值与LSR值dfe秩次距SSR0.05SSR0.01LSR0.05LSR0.0122.974.070.761.041833.124.270.801.09表5-32配方间平均数多重比较结果(SSR法)处理均值5%显著水平1%极显著水平A37.9aAA27.7aABA16.8bB因素A主效应分析,结果表明配方A3与Al之间差异极显著,A2与Al差异显著,A2与A3差异不显著。因B因素各水平的重复数为an,故B因素各水平的标准误为:S_=MSS/anVx.j.e在本例,B因素的影响不显著,不必进行多重比较。以上所进行的多重比较,实际上是A、B两因素主效应的检验。若A、B因素交互作用不显著,则可从主效应检验中分别选出A、B因素的最优水平,得到最优水平组合;若A、B因素交互作用显著,则应进行水平组合平均数间的多重比较,以选出最优水平组合,同时可进行简单效应的检验。因为水平组合数通常较大(本例ab=4X4=16),采用最小显著极差法进行各水平组合平均数的比较,计算较麻烦。为了简便起见,常采用T检验法。所谓T检验法,实际上就是以q检测法中秩次距k最大时的LSR值作为检验尺度检验各水平组合平均数间的差异显著性。各水平组合平均数间的比较因为水平组合的重复数为n,故水平组合的标准误为:S.二,MSThiyeS.=7MS/=*0.59/3=0.443刈e由dfe=18,k=2,3,,9,从附表5中查出"0.05、a=0.01的临界SSR值,计算出LSR值,然后进行比较判断得出结论。表5-34个水平组合平均数多重比较结果(SSR法)水平组合均值5%显著水平1%极显著水平A3B39.3aAA2B18.7abABAlBl8.0abcABA3B27.7beABCA2B27.3beBCA2B37.0cdBCA1B26.7cdBCA3B16.7cdBCA1B35.7dC分析结果表明,A3B3,A2B1,AIBl为优组合,按此组合选用配方和添加剂可望得到较好的蛋糕质量。当A、B因素的交互作用显著时,一般不必进行两个因素主效应的显著性检验(因为这时主效应的显著性在实用意义上并不重要),而直接进行各水平组合平均数的多重比较,选出最优水平组合。通常水平组合数较大(ab),采用最小显著极差法进行各水平组合平均数的比较,计算较麻烦。为了简便起见,常采用T检验法。所谓T检验法,实际上就是以q检测法中秩次距k最大时的LSR值作为检验尺度来检验各水平组合平均数间的差异显著性。