《第 五 章 方差分析.ppt》由会员分享,可在线阅读,更多相关《第 五 章 方差分析.ppt(72页珍藏版)》请在课桌文档上搜索。
1、医学统计学及其软件包,第 五 章 方差分析,第一节 概论,方差分析(Analysis of Variance,简记为:ANOVA)的应用范围很广,本章的方差分析主要用于检验计量资料中两个或两个以上均数间差别显著性的方法。以一个实例说明方差分析的基本思想和原理。,第二节 单因素方差分析(one-way ANOVA,completely random design ANOVA),例5.1 小白鼠给药前后发生咳嗽的推迟时间(秒)复方 复方 可待因 40 50 60 15-10 30-5 105 77。例数 15 15 10 均值 31.67 44 60.7,常见的错误是进行三组之间的两两t检验。这将
2、增加第一类误差的概率。如两组比较作一次t检验取=0.05;三组之间的两两t检验作三次t检验,至少有一次拒绝H0的概率为0.14。五组之间的两两t检验作十次t检验,至少有一次拒绝H0的概率为0.40。两组以上均数的比较不能用两两t检验,而必须用方差分析。,要比较三种药物的平均推迟咳嗽时间有否差异?,总体1N(1,12)样本1(n1,S1)总体2N(2,22)样本2(n2,S2)总体3N(3,32)样本3(n3,S3)已知:12=22=32,不相等 问:1=2=3??1,2,3不相等,方差分析法的模型,方差分析法的基本思想,组间变异(不同药物引起,包含误差)总变异 组内变异(误差引起)如不同药物的
3、作用相同,并且无抽样误差,则:F=组间变异/组内变异=1 由于抽样误差,F不等于1,但和1相差不大,F越大概率越小,如概率P0.05,则可认为不同药物的作用是不相同的。即样本均数之间的差异有统计学意义。,总变异,组内变异,组间变异,方差分析法的基本思想为:根据效应的可加性,将总的离均差平方和分解成若干部分,每一部分都与某一种效应相对应,总自由度也被分为相应的各个部分,各部分的离均差平方和除以相应自由度得出各个均方,然后列出方差分析表算出F值,作出统计推断。,方差分析法的基本思想,方差分析法的基本思想,H0:1=2=3H1:至少有一个等式不成立或:H0:三种药物对小白鼠镇咳作用相同H1:三种药物
4、镇咳作用不完全相同,方差分析法的基本思想,离均差平方和用SS表示,自由度用DF表示,均方(MEAN SQUARE)用MS表示 MS=SS/DF 即方差。SS总=SS组间+SS组内 DF总=DF组间+DF组内 F=MS组间/MS组内=(SS组间/DF组间)/(SS组内/DF组内)根据F和DF组间,DF组内查方差分析用F界值表,得P值。如P0.05,拒绝H0。,方差分析法的基本思想,以上分解和检验可列成方差分析表的形式:方差分析表 变异来源 平方和 自由度 均方 F值 P值 Source SS DF MS F P 总变异 组间 误差,方差分析法的基本思想,如果影响数据变异的因素不止一个,则可作二因
5、素或三因素等的方差分析,总变异可分解成和各因素相对应的各个变异;这样,分解越细,误差越小,检验的效率就越高。,方差分析的基本要求,1.各组样本来自正态分布的总体。2.各总体的方差相等。3.各效应的可加性。如不符合基本要求时,可进行变量变换,变换成正态分布后再进行检验或用非参数检验的方法。,变 量 变 换,1.服从对数正态分布的资料可用对数变换 y=log(x)2.服从泊松分布的资料可用平方根变换 y=3.表达成百分数的资料可用平方根反正弦变换 y=arcsin,校正数,总平方和,组间平方和,方差分析基本步骤,组内平方和=总平方和组间平方和,DF总=N-1,DF组间=组数-1,DF组内=DF总-
6、DF组间,方差分析表变异来源 SS df MS F P 总变异 31939.9 39药物间变异 5062.4667 2 2531.2333 3.4845 0.05 误差 26877.4333 37 726.4171,由df1=2,df2=37 查F临界值表(附表五)得F0.05=3.25,现FF0.05故知P0.05,结论为在=0.05水平上,拒绝H0,而认为三种药物平均推迟咳嗽时间不相同。,例5.1 的方差分析结果,第三节 均数间两两比较,K组均数比较时,经方差分析,拒绝H0:总体中各组均数相同,即1=2=K时,如果需确定那二个均数间有显著差异,可用均数间的两两比较。如有三个组A,B,C时,
7、每两个均数进行比较时可有A与B,A与C,B与C共三种,如有四个组时将有=6 种比较。进行均数间两两比较的方法很多。本书介绍Student-Newman-Keuls(SNK)检验法。,均数间两两比较,H0:A=B H1:A B,求得q值后,据误差项自由度及组数a查附表六q界值表,得q0.05,q0.01。a为均数从小到大排队后,所比较的二组相隔的组数。,均数间两两比较,均数一 均数二 均数三,a=2,a=2,a=3,均数间两两比较,例5.1资料中误差项df=37,MS=726.4171,复方:n1=15,=31.6667;复方:n2=15,=44;可待因:n3=10,=60.7均数由小到大排列后
8、,组别依次为复方,复方,可待因。比较复方与复方,其a=2 q=|31.666-44|/=1.772 比较复方与可待因,其a=3 q=|31.666-60.7|/=3.732 比较复方与可待因,其a=2 q=|44-60.7|/=2.146,均数间两两比较,查附表六,由误差项df=37,组数a=2查得q0.05=2.87,q0.01=3.84;a=3查得q0.05=3.46,q0.01=4.40。复方与可待因比较,q=3.7323.46,故P0.05,而其余二个Q皆小于q0.05;因此复方与可待因两药对小白鼠平均推迟咳嗽时间,在=0.05水平上有显著差异,其余任两药间差异皆不显著。,均数间两两比
9、较,进行均数间两两比较的方法很多:SNK(Student-Newman-Keuls)检验,DUNCAN检验,Tukey检验,LSD(最小显著差)检验,Scheffe检验,等。如只须几个实验组和一个对照组比较,实验组之间不比较:DUNNETT检验,DUNCAN新法,等,第四节 方差齐性检验,H0:各个正态总体方差相等,即12=22=K2H1:至少存在一对i,j,有i2 j 2 本书中介绍一种稳健的(Robust)方差齐性检验方法-Levene检验,它可以用于两个或两个以上方差的齐性检验。(1)对于K组的样本资料,求得各组的均数后计算观察值距各自组均数的绝对离差。(2)以绝对离差作为主要变量,使用
10、前述的方差分析法。当拒绝H0时,认为各组方差不齐;当不拒绝H0时,认为方差齐性。,算得三个药物组:=31.6667,=44,=60.7,得绝对离差如下:复方 复方 可待因 8.3333 6 0.7 21.6667 24 30.7.18.3333 14 再用上表中绝对离差值进行方差分析。,第四节 方差齐性检验,第四节 方差齐性检验,变异来源 SS DF MS F P 总变异 9108.39 39 药物间 679.56 2 339.78 1.49 0.2382 误差 8428.83 37 227.80 由于P=0.2382,因此不拒绝H0,而认为三组方差齐性,因此符合均数间比较的方差分析法的基本要
11、求。,第五节 随机单位组设计方差分析(randomized block design ANOVA),随机单位组设计又称随机区组设计,随机配伍组设计,它是两样本配对试验的扩大。,单位组 处理1 处理2.处理k 1 X11 X12 X1k 2 X21 X22 X2k。b Xb1 Xb2 Xbk,随机单位组设计方差分析,大白鼠注射不同剂量雌激素后的子宫重量(g)雌激素剂量(g/100g)大白鼠种系 0.2 0.4 0.8 A 106 116 145 B 42 68 115 C 70 111 133 D 42 63 87,随机单位组设计方差分析,欲比较因素的K个水平的各变量均值,同时控制另一个因素的作
12、用。试验设计时,先将受试对象按其它控制因素性质相同或相近者组成单位组,每个单位组有K个受试对象,分别随机分配至因素的K个水平上。这时每个水平的受试对象不仅数量相同,而且性质亦相同或相近,就能缩小误差,提高实验效率。这样的设计可将单位组亦看作一个因素,就成为二个因素的设计,随机单位组设计方差分析,处理间变异 组间 总变异 单位组间变异 组内 误差(误差)和单因素方差分析相比,误差减少了,检验效率提高了。,随机单位组设计方差分析,可作二个假设检验:(1)H0:因素各水平x的均值相同 H1:因素中至少有二个水平的x均值不相同 F1=MS因素/MS误差 DF因素=K-1,DF误差=(bk-1)-(k-
13、1)-(b-1)=bk-k-b+1(2)H0:各个单位组的x均值相同 H1:至少有二个单位组的x均值不相同 F2=MS单位组/MS误差 DF单位组=b-1,DF误差=bk-k-b+1当欲进一步比较因素中任二个的水平x均值是否相同。可用本章第三节中均数间两两比较的检验。,大白鼠注射不同剂量雌激素后子宫重量,处理组:雌激素剂量,三水平(0.2,0.4,0.8)单位组:大白鼠种系,四水平(A,B,C,D),变异来源 SS DF MS F P 总 13075 11剂量间 6074 2 3037 33.54 0.01种系间 6457.67 3 2152.56 23.77 0.01 误差 543.33 6
14、 90.56 F0.01(2,6)=10.92,F0.01(3,6)=9.78,大白鼠注射不同剂量雌激素后子宫重量,方差分析得各个不同剂量的平均子宫重量不相同。可进一步比较任二个剂量的平均子宫重量的差异是否有统计意义。可用SNK方法。比较结果为三种剂量两两之间的差异都有统计学意义。,第六节 拉丁方设计方差分析(latin square design ANOVA),欲比较一个因素中K个水平的各均数,同时要控制另二个因素作用时,可用拉丁方设计。用K个拉丁字母排列成K行K列的方阵,使每行,每列中每个字母仅出现1次,这样的方阵称为拉丁方。,第六节 拉丁方设计方差分析,例如:22拉丁方 33拉丁方 A
15、B A B C B A C A B B C A 44拉丁方 55拉丁方 A B C D A B C D E B C D A B E D A C D A B C C A E B D C D A E D C A E B E D B C A 拉丁方的行和行,或列和列交换,仍为拉丁方。,第六节 拉丁方设计方差分析,拉丁方设计实际上是一种特殊类型的三因素试验设计,三个因素的水平数必须相同。(1)首先根据水平数选定拉丁方。(2)再随机交换拉丁方的行或列。(3)然后将三个因素分别放置于拉丁方的行,列 及字母上面,主要考察因素放置于字母上。(4)根据设计进行试验,把试验结果记入相应位置。(5)进行方差分析,得
16、出结论。,第六节 拉丁方设计方差分析,5个不同日期,5个受试者,穿5种不同防护服的脉搏数 受试者 日期 1 2 3 4 5 1 A B C D E 2 B C D E A 3 C D E A B 4 D E A B C 5 E A B C D,第六节 拉丁方设计方差分析,字母间(处理间)总变异 行间 列间 误差 由于总变异分解更细,误差更小,效率也更高。,第六节 拉丁方设计方差分析,可作三个方差分析:(1)H0:各种防护服的平均脉搏数相同;H1:各种防护服的平均脉搏数不全相同;F1=MS防护服间/MS误差(2)H0:各个受试者的平均脉搏数相同;H1:各个受试者的平均脉搏数不全相同;F2=MS受
17、试者间/MS误差(3)H0:不同日期的平均脉搏数相同;H1:不同日期的平均脉搏数不全相同。F3=MS日期间/MS误差,第六节 拉丁方设计方差分析,例5.3的方差分析表变异来源 SS DF MS F P 总变异 4105.91 24 日期间 508.07 4 127.01 2.89 0.05受试者间 2853.67 4 713.41 16.27 0.05 误差 526.14 12 43.84 F0.05(4,12)=3.26,F0.01(4,12)=5.41,处理因素为药物,复方1,复方2,可待因,处理因素为药物不同浓度,控制因素为动物种系,单因素方差分析,单位组设计方差分析,拉丁方设计方差分析
18、,防护服A、B、C、D、E,受试者甲、乙、丙、丁、戊,试验日期1、2、3、4、5,第七节 析因设计的方差分析(factorial design ANOVA),析因设计是一种多因素的交叉分组试验设计。例如:提取某蛋白质成分的研究中,蛋白质的提取量和温度,试剂浓度及PH值有关。温度分高,中,低三个水平;试剂浓度分0.1,0.2,0.3,0.4 四个水平;PH值分6和8二个水平。这三个因素的各水平相结合,共形成342=24种处理组;各种处理组各有数例,这样的试验叫析因设计。由于进行了交叉设计,同时每组又有重复,因此可检验各因素间的交互作用(interaction)。上述试验也可称为342析因试验设计
19、。重复数可以相等也可以不相等,一般地说,重复数相等时,效率最高。,第七节 析因设计的方差分析,最简单的析因设计是22析因设计。有二个因素,每个因素分二个水平。因素A:分A1和A2二个水平;因素B:分B1和B2二个水平;分四个处理组:A1B1,A1B2,A2B1和A2B2。每个处理组做若干次试验。,第七节 析因设计的方差分析,例5.4 某研究所对甲、乙两药的降胆固醇作用进行研究,将甲药视作为因素,下有二个水平,水平1为不加甲药,水平2为加甲药。乙药为因素,水平1为不加乙药,水平2为加乙药。构成了22=4个水平组合,试验中将12个高胆固醇病人随机分为四组,每组3例,进行治疗,观察胆固醇的下降值。本
20、试验为22析因试验设计,重复数为3。,22析因设计试验结果 因素(乙药)因素(甲药)水平1(不加)水平2(加)水平1 0.416 0.728(不加)0.650 0.806 0.468 0.598 水平2 1.456 1.664(加)1.144 2.028 1.092 2.080,第七节 析因设计的方差分析,交互作用,当二个因素的作用相互独立时,称这二个因素无交互影响;当二个因素的作用不独立,而相互有影响时,称这二个因素有交互影响。当存在交互影响时表示一个因素各水平间的差异随着另一个因素的水平改变而不同;当不存在交互影响时,则各个因素独立,即一个因素水平改变时不影响另一个因素的各水平之效应。因素
21、A和因素B的交互作用记为AB。交互作用:几个因素联合作用不等于这几个因素单独作用的累加(有的情况是相乘),称这几个因素间存在交互作用,否则称为不存在交互作用或称为这几个因素相互独立。,第七节 析因设计的方差分析,因素1引起的变异(甲药)因素2引起的变异(乙药)总变异 因素1和因素2的交互作用引起的变异 误差 可作三个假设检验。,第七节 析因设计的方差分析,(1)H0:因素的各水平的胆固醇的平均降低值相同;H1:因素的各水平的胆固醇的平均降低值不相同;(2)H0:因素的各水平的胆固醇平均降低值相同;H1:因素的各水平的胆固醇平均降低值不相同;(3)H0:因素的各水平的胆固醇平均下降值的差异,独立
22、于因素,或者因素的各水平的胆固醇平均下降值的差异独立于因素;H1:两者不独立。第(3)个假设就是检验两个因素的交互影响。,第七节 析因设计的方差分析,例5.4的方差分析表变异来源 SS DF MS F P 总变异 3.8146 11 因素 2.8014 1 2.8014 96.2680 0.01 因素 0.5976 1 0.5976 20.5361 0.01 0.1813 1 0.1831 6.2921 0.05 误差 0.2325 8 0.0291 F0.05(1,8)=5.32,F0.01(1,8)=11.3,第七节 析因设计的方差分析,乙药 甲药 单用乙药 不加 加 不加 1.534 2
23、.132 0.598 加 3.692 5.772单用甲药 2.158 二药合用:4.238,第七节 析因设计的方差分析,二药单独作用的累加为:2.158+0.598=2.756二药联合作用为:5.772-1.534=4.238两者不相等,如差异显著,则二药间存在交互作用。联合作用累加:有协同作用联合作用累加:有桔抗作用联合作用=累加:无交互作用 本例有协同作用。,第八节 方差分析的SAS程序,可用于各种方差分析的SAS过程较多,常用的有二个过程:ANOVA过程:只用于单因素方差分析及各种平衡设计资料(即各组例数相等)的方差分析。GLM(general linear model)过程:用于各种试
24、验设计的方差分析和协方差分析。GLM过程可完全替代ANOVA过程的作用,并且语句相同。,第九节 平衡不完全单位组设计方差分析(balanced incomplete block design ANOVA),在随机单位组设计中有时处理组的水平数太多,大于单位组中的个体数,这时就可以有计划地安排每个单位组中的处理,使全部试验中每种处理的重复数相同,每两种处理同时出现在同一单位组中的次数相同,这就是平衡不完全单位组设计的方法。对于一个具体设计,欲用本方法时需查有关的书籍,作出实验安排。,第九节 平衡不完全单位组设计方差分析,要比较9种饲料的作用,用同一窝的白鼠作为单位组。如用随机单位组设计,则每一窝
25、都要有9个白鼠。但实际上做不到每一窝9个白鼠,只能做到每一窝4个白鼠。这时可选用平衡不完全单位组设计。本例处理组的水平数为9,每各单位组中实验单位数为4,可从有关专著中查到设计格式,以达到使全部试验中每种处理的重复数相同,每两种处理同时出现在同一单位组中的次数相同。根据设计格式安排试验,得到结果,再进行统计分析。,单位组(窝)处理 1 6(2.6)4(9.7)3(5.4)5(6.9)2 6(5.9)7(2.6)9(5.9)2(6.3)3 1(7.0)6(5.6)9(5.9)3(3.3)4 9(2.4)4(5.0)7(3.0)6(2.4)5 9(5.0)8(7.4)5(10.3)3(9.4)6
26、4(10.1)1(9.7)6(5.7)8(7.5)7 2(3.9)4(5.1)5(6.4)9(6.3)8 8(5.0)6(6.1)7(5.4)3(3.3)9 2(2.8)6(2.6)5(2.8)8(3.3)10 2(5.7)8(9.3)3(5.4)9(6.1)11 2(5.7)7(6.6)1(5.5)8(5.3)12 1(3.0)8(1.4)9(5.2)4(2.8)13 3(7.5)7(2.2)5(2.6)1(5.4)14 3(3.7)1(5.2)4(2.4)2(2.4)15 9(3.0)7(2.6)1(5.7)5(2.4)16 4(5.5)2(6.0)7(5.6)3(3.3)17 7(2.6
27、)5(5.9)4(6.0)8(5.6)18 2(7.3)5(5.4)6(5.7)1(5.4),第十节 正交试验设计方差分析(orthogonal experiment design ANOVA),正交试验是一种高效,快速的多因素试验方法,能同时对多个因素,多个水平进行比较。正交试验利用一套规格化的正交表,使每次试验的因素,水平得到最合理的安排,所以能以较少的试验次数提供因素,交互影响等有关信息,作出统计推断。通过试验常能找出最佳实验条件,最好的生产条件,最合适的配料方案等。,第十节 正交试验设计方差分析,正交试验设计方差分析的一般步骤为:(1)确定所研究的因素和水平;(2)选择合适的正交表,安
28、排试验;(3)通过试验获得数据;(4)对试验结果用方差分析方法作出统 计推断。,第十节 正交试验设计方差分析,例5.6 过氧乙酸是广泛应用的一种杀灭病毒性肝炎病毒的主要消毒剂,但其有效成分极不稳定,以致影响其消毒效果,现对下列四个因素,每个因素2个水平进行研究,由放置24个小时后过氧乙酸残存量(mg/3ml),分析哪些为主要影响因素。A:稳定剂,水平1:加磷酸0.3%;水平2:不加磷酸;B:水浴温度,水平1:25-30;水平2:35-40;C:浸泡口表,水平1:浸泡口表10支;水平2:不浸口表;D:加盖与否,水平1:加盖;水平2:不加盖。,第十节 正交试验设计方差分析,选用L8(27)正交表:
29、试验号 1 2 3 4 5 6 7 1 1 1 1 1 1 1 1 2 1 1 1 2 2 2 2 3 1 2 2 1 1 2 2 4 1 2 2 2 2 1 1 5 2 1 2 1 2 1 2 6 2 1 2 2 1 2 1 7 2 2 1 1 2 2 1 8 2 2 1 2 1 1 2,第十节 正交试验设计方差分析,二列间交互影响:列 1 2 3 4 5 6 7 1 3 2 5 4 7 6 2 1 6 7 4 5 3 7 6 5 4 4 1 2 3 5 3 2 6 1,第十节 正交试验设计方差分析,选择适当的正交表后,需先作表头设计;即哪一列安排哪个因素,哪一列为交互影响?必须剩下至少一列
30、为误差项。本例可安排如下:列号 1 2 3 4 5 6 7因素 A B AB C AC BC D CD BD AD 如需考虑6个一级交互影响,则L8(27)正交表太小,要选更大的正交表。这里只考虑2个交互影响:AB 和AD。选用L8(27)作如下表头设计 列号 1 2 3 4 5 6 7 因素 A B AB C AD D,第十节 正交试验设计方差分析,据L8(27)中的1,2,4,7列所示的因素水平进行试验得:试验号 A(1)B(2)C(5)D(7)残存量 1 1 1 1 1 7.00 4.11 2 1 1 2 2 6.05 3.50 3 1 2 1 2 1.10 0.80 4 1 2 2 1
31、 1.90 0.96 5 2 1 1 2 2.40 1.65 6 2 1 2 1 4.00 1.50 7 2 2 1 1 0.35 0.30 8 2 2 2 2 0.30 0.90,第十一节 协方差分析(analysis of covariance),在各种试验设计中,对主要变量(dependent variable)Y 研究时,常希望其他可能影响Y的变量保持基本一致,以达到均衡可比。例如:比较几种药物的降压作用,各试验组在原始血压、性别、年龄等指标应无显著差异。,第十一节 协方差分析,有时这些变量不能控制,须在统计分析时,通过一定方法来消除这些变量的影响后,再对主要变量y作出统计推断。如果所
32、控制的变量是分类变量时,可用多因素的方差分析;当要控制的变量是连续型变量时,可用协方差分析。,称这些影响变量为协变量(Covariate),消除协变量的影响后,或将协变量化成相等后,对y的修正均数所作的方差分析称为协方差分析。例如:比较几种不同饲料对动物体重增加的作用,可把动物的进食量作为协变量。比较大学生和运动员的肺活量时,可把身高作为协变量。比较治疗后二组舒张压的大小,可把治疗前的舒张压作为协变量。,第十一节 协方差分析,第十一节 协方差分析,协方差分析的基本原理:协方差分析是把直线回归和方差分析结合起来的一种统计分析方法。当不同处理结果的y值还受协变量x的影响时,先找出y与x的直线关系,
33、求出把x值化为相等后y的修正均数,然后进行比较,这样就能消除x对y的影响,更恰当地评价各种处理的作用。,雌雄两组羔羊体重增加情况比较,协方差分析步骤:(1)各处理组分别拟合直线回归方程,第十一节 协方差分析,(2)比较各处理组的斜率,求公共回归系数。公共回归系数bc=0.1938,第十一节 协方差分析,(3)求各组回归方程的截距a,用公式,(4)得到各组回归方程,第十一节 协方差分析,(5)从y中将x的影响扣除,(即把x化成相等后,对于y的修正均数进行方差分析),第十一节 协方差分析,协方差分析三个重要的假设:1.各组样本来自正态总体,且方差齐性。2.总体回归系数不等于0。3.各组的总体回归系数相等。协变量 总变异 处理 误差,第十一节 协方差分析,各种试验设计,如:完全随机化设计,随机区组设计,拉丁方设计,析因设计,平衡不完全单位组设计,正交试验设计等,都可以带有协变量,而且可以不止一个。SAS软件能对其作协方差分析,首先逐一作所列协变量是否对Y有影响的显著性检验,然后按设计方案,扣除协变量的影响后,对主要变量Y的修正均数作比较,得出统计结论。也可进一步比较任两个修正均数。,
链接地址:https://www.desk33.com/p-675454.html