试验设计与数据处理.ppt
试验设计与数据处理,内 容,基本统计分析差异显著性分析试验设计方差分析回归分析与相关分析多元统计分析,未整理的数据资料为原始资料,是零星的、孤立的和杂乱无章,无规律可循,只有通过科学的整理和分析,可发现其规律性,揭示内在的本质。描述统计分析是最基本的数据处理方法,包括次数分布、统计量计算等等。,一、基本统计分析,总体或样本中观察值或某区间的观察值出现的次数在整个区间的分布情况,了解数据的分布规律。,1.1 试验资料的分类(1)数量资料 以测量、计量或计数的方式而获得的数据。如小麦蛋白质、容重、植株数等。(2)质量资料 指能观察到而不能直接测量的,只能用文字来描述其特征而获得的资料。如食品颜色、风味,芒的有无、绒毛的有无等。,1、次数分布,(1)间断性数据资料的整理,例1:以某小麦品种的每穗小穗数为例来分析。随机采取100个麦穗,计数每穗小穗数,数据资料见表1-1。,1.2 次数分布表,表1-1 100个麦穗的每穗小穗数,表1-2 100个麦穗每穗小穗数的次数分布表,(2)连续性数据资料的整理,例2:为了分析某食品生产厂的罐头质量,现随机抽取100听罐头样品,分别称其净重,数据资料见表1-3。,表1-3 100听罐头样品的净重 g,表1-4 100听罐头净重的次数分布,由次数分布表可以看出,每听罐头净重小于332.5g及大于356.5g的为极少数。100听罐头净重分布基本以343.0g为中心,向两边做递减对称分布。,(3)质量数据资料的整理,质量(属性)数据资料,也可以用类似次数分布的方法来整理。在整理前,把资料按各种质量性状进行分类,分类数等于组数;然后根据各个体在质量属性上的具体表现,分别归入相应的组中,即可得到属性分布的规律性认识。例3:某水稻杂种第二代植株米粒性状情况,归于表1-5。,表1-5 水稻杂种二代植株 米粒性状情况,(1)方柱形图直方图,方柱形图适用于表示连续性数据的次数分布。,1.3 次数分布图,图1-1 100听罐头净重量次数分布直方图,(2)折线图,折线图也是表示连续性变数资料的一种普通的方法,且在同一图上可比较两组以上的资料。,图1-2 100听罐头净重量次数分布折线图,(3)条形图,条形图适用于间断性数据和属性数据资料,用以表示这些变数的次数分布状况。一般其横轴标出间断的中点值或分类性状,纵轴标出次数。,图1-3 水稻F2代米粒性状性状条形图,度量集中性的特征数。平均数是一组数据的代表值,表示资料中观察值的中心位置,可作为作为样本性状的代表,可与另一同质样本进行比较。包括算术平均数、中位数、众数等。常用的是算术平均数,简称平均数。,2、平均数,单用平均数不足以很好地表达一组数据的主要特征。如4:第一组数据24、25、26 第二组数据1、25、49,例5:调查两个小麦品种的每穗小穗数,每品种计数10个麦穗,经整理后见表。,3、变异数 度量数据资料变异程度大小的特征数,3.1 极差 R=Max(x)Min(x),两品种的平均数均为18个,但甲品种的极差较大,其变异范围较大,平均数的代表性较差;乙品种的极差较小,其变异幅度较小,其平均数代表性较好。,3.2 方差,3.3 标准差SD,例6:设某一水稻单株粒重的样本有5个观察值,以克为单位,其数为2、8、7、5、4(用y代表)。,水稻单株粒重的标准差为2.39g。,在比较两组平均数相差很大或数据单位不同的资料的变异程度时,则需要用变异系数。变异系数(Coefficient of Variation,记为CV)是指资料的标准差与平均数之比:,3.4 变异系数,变异系数是一个不带单位的数值,可用于比较二个事物的变异度大小。,例7:表1-6为两个小麦品种主茎高度的平均数、标准差和变异系数。如从标准差看,甲品种比乙的变异大些;但因两者的均数不同,标准差间不宜直接比较。如果计算出变异系数,就可以相互比较,乙品种的变异系数为11.3%,甲品种为9.5%,可见乙品种的相对变异程度较大。,表1-6 两个小麦品种主茎高度的测量结果,2008年关中地区3市区小麦大田样品的蛋白质品质性状,陕西关中小麦大田样品的籽粒蛋白质平均含量为14.460.95%,沉淀值为31.027.18 mL,湿面筋含量为34.784.18%,面筋指数为68.6212.99%。沉淀值、湿面筋含量及面筋指数在品种间的变异系数较高,分别为23.14%、12.01%、18.93%。宝鸡地区小麦籽粒蛋白质含量显著高于渭南和咸阳地区(p0.05),沉淀值和面筋指数显著低于渭南地区(p0.05)。除沉淀值外,咸阳地区小麦的蛋白质品质性状与渭南地区无显著差异。,玉米品种的籽粒品质特性,二、差异显著性分析,单个样本平均数的差异检验u检验,t 检验两个样本平均数的差异检验成组试验数据的检验 u 检验,t 检验成对试验数据的检验t 检验三个及三个以上样本平均数的差异检验方差分析(F检验),例8:某地区的当地小麦品种一般667m2产量300kg,多年种植获得产量标准差为75kg,现有一新品种通过25个小区的试验,其平均产量为每667m2 330kg,即=330,那么新品种与当地品种的产量是否有显著差异?,单个样本的均值检验u检验,由于u=2u0.05=1.96,P(概率)界于0.01和0.05之间,小概率事件,有显著差异。,1、单个样本平均数的假设测验,已知大田小麦生长后期不喷磷,千粒重0=36.0g,2=6.4 g2;试验表明,喷磷:千粒重=37.9 g,n=10。问:小麦生长后期叶面喷施磷对千粒重是否有作用?,例9:,在5%的显著水平上否定 H0:=0=36.0 g,接受HA,两者差异达显著水平,小麦生长后期叶面喷施磷能显著增加千粒重。,由于,,例10:某春小麦良种的千粒重 34g,现由外地引入一高产品种,在8个小区种植,得其千粒重(g)为:35.6、37.6、33.4、35.1、32.7、36.8、35.9、34.6,问新引入品种的千粒重与当地良种有无显著差异?,总体 为未知,又是小样本,故需用t 测验。,df=7,t0.05=2.365。|t|0.05。表明即新引入品种千粒重与当地良种千粒重指定值没有显著差异,例11:已知某水稻品种的千粒重为 28 g。施钾试验表明,10个小区的千粒重分别为:29.3,29.8,30.5,31.0,30.0,30.7,29.0,29.5,30.1,29.4 g。问:施钾对水稻千粒重是否有作用?,自由度df=10-1=9时,t0.05=2.262,t0.01=3.250,由于 t 3.250,所以可在1%的显著水平上否定H0:=0=28 g,接受HA,两者差异达极显著水平,施钾能极显著地增加水稻千粒重。,2、两个样本平均数的假设测验,成组试验数据检验,成对试验数据检验,如果两个处理为完全随机设计的两个处理,各试验单元彼此独立,不论两个处理的样本容量是否相同,所得数据皆称为成组数据。,2.1 成组试验平均数比较,成组资料的特点:两组数据相互独立,各组数据的个数可等,也可不等,(1)u 检验,1)两个样本总体的方差12 和22 已知;2)2未知,但两个样本均为大样本(n1,n2 30);,采用 u 检验的条件,基本计算式:,例12:下表是不同插秧期的每穗结实数。试分析插秧期对水稻每穗结实数有无影响?,表2-1 水稻不同插秧期的每穗结实数,由于u 2.58,所以可在1%的显著水平上否定H0:1=2,接受HA,两者差异达显著水平,插秧期对水稻每穗结实数有极显著影响,提早插秧可增加水稻每穗结实数。,例13:在食品厂的甲乙两条生产线上各测定了30个日产量如表所示,试检验两条生产线的平均日产量有无显著差异。,表2-2 甲乙两条生产线日产量记录,故:,由0.01查附表2,得u0.012.58,实际|u|3.28u0.012.58,故P0.01,应否定H0,接受HA。说明两个生产线的日平均 产量有极显著差异,甲生产线日平均产量高于乙生产线日平均产量。,两个样本总体的方差12和22未知,且n1,n230 时,可用 t 检验来确定 H0:1=2 能否成立。,(2)t 检验,可假定两个样本所属总体的方差12=22 时,采用合并方差,即两个两本方差的加权平均值。,表2-3 施用化成复合肥和掺合肥的小麦籽粒产量(单位:g/盆),例14:分析两种不同肥料对小麦产量的影响。,当自由度 df=n1+n2-2=5+5-2=8 时,t0.05=2.306,t0.01=3.355,由于 t 2.306(t0.05),所以接受 H0:1=2,两者差异不显著,A肥和B肥对小麦籽粒产量的效应没有差异。,例15:现有两种茶多糖提取工艺,分别从两种工艺中各取1个随机样本来测定其粗提物中的茶多糖含量,结果见表2-4。问两种工艺的粗提物中茶多糖含量有无差异?,表2-4 两种工艺粗提物中茶多糖含量测定结果,当df=9时,查临界值得:t 0.05(9)=2.262,|t|1.381 0.05,表明两种工艺的粗提物中茶多糖含量无显著差异。,2.2 成对试验平均数的比较,若试验设计是将性质相同的两个供试单位配成一对,并设有多个配对,然后对每一配对的两个供试单位分别随机地给予不同处理,则所得观察值为成对数据。,两个处理的观测值一一配对,即(x11,x21),(x12,x22),(x13,x23),(x1n,x2n),例16:为研究电渗处理对草莓果实中的钙离子含量的影响,选用10个草莓品种进行电渗处理与 对照处理对比试验,结果见表2-5。问电渗处理对草莓钙离子含量是否有影响?,本例因每个品种实施了一对处理,试验资料为成对资料。,表2-5 电渗处理对草莓钙离子含量的影响,根据df=n-19,查临界t值:t0.01(9)3.250,因为|t|8.358 t0.01(9),P0.01,否定 H0,接受HA,表明电渗处理后草莓钙离子含量与对照钙离子含量差异极显著,即电渗处理极显著提高了草莓钙离子含量。,表2-6 施用氯化铵和尿素对水稻籽粒产量的影响(单位:kg/亩),例17:分析肥料对水稻籽粒产量的影响。一一配对!,查附表,当自由度 df=n-1=9-1=8时,t0.05=2.306,t0.01=3.355,由于 t=0.467 2.306,所以接受 H0:1=2,两者差异不显著,施用氯化铵和尿素对水稻籽粒产量影响不显著。,例18:选生长期、发育进度、植株大小和其他方面皆比较一致的两株番茄构成一组,共得7组,每组中一株接种A处理病毒,另一株接种B处理病毒,以研究不同处理方法的饨化病毒效果,表2-7结果为病毒在番茄上产生的病痕数目,试分析两种处理方法的差异显著性。,表2-7 A、B两法处理的病毒在番茄上产生的病痕数,配对设计,由于df=7-1=6时,t0.01=3.707。实得|t|t0.01,故P0.01。即A、B两法对饨化病毒的效应有极显著差异。,单因素试验复因素试验综合试验,三、试验设计,1、单因素试验,在其他因素相对一致的条件下,只研究某一个因素效应的试验,称为单因素试验。单因素试验不仅简单易行,结果易于分析,而且能对被试验因素作深入研究,是研究某个因素具体规律时常用而有效的手段。单因素试验方案制定时,应根据研究目的要求及试验条件,把要研究的因素分成若干水平,每个水平就是一个处理,再加上对照(有时就是该因素的零水平)即可。,在设计单因素试验方案时,应注意数量水平的级差不能过细。过细,试验因素不同水平的效应差异不明显,甚至会被试验误差所掩盖,试验结果不能说明问题。单因素试验由于没有考虑各因素之间的相互关系,试验结果往往具有一定的局限性。,例19:小麦磷肥用量试验,磷肥用量:P0,P1,P2,P3 四水平,试验方案如下:,1)不施肥(CK1);2)肥底NK+P0;3)NK+P1;4)NK+P2;5)NK+P3,例20:氮肥品种比较试验,氮肥品种:尿素,碳铵、硝铵、硫铵。方案如下:,1)不施肥(CK1);2)肥底PK+尿素;3)PK+碳铵;4)PK+硝铵;5)PK+硫铵,2、复因素试验,研究两个或两个以上不同因素效应的试验,称为复因素试验或多因素试验。复因素试验克服了单因素试验的缺点,可分析因子的主效应及其交互作用,确定各因素不同水平的优化组合,其结果能较全面地说明问题,试验效率较高。能但随着试验因素的增多,往往容易使试验过于复杂庞大,反而会降低试验的精确性。处理数目与试验种类、排列方法、要求的精确程度有关,应以较少的处理解决较多问题。因此,复因素试验一般以2-4个试验因素较好。,复因素试验的种类,完全方案 不均衡方案 正交设计 均匀设计回归设计 配方试验设计,回归设计(1)回归正交试验设计 a、一次回归正交试验设计 b、二次回归正交试验设计(2)回归旋转设计 a、二次回归正交旋转组合设计 b、二次通用旋转组合设计,2.1 完全方案,如:氮磷肥料配合试验,,氮 3 个水平:N1,N2,N3磷 3 个水平:P1,P2,P3,N1 P1,N2 P1,N3 P1 N1 P2,N2 P2,N3 P2 N1 P3,N2 P3,N3 P3,试验方案组合:,各试验因素不同水平一切可能的组合均作为试验处理。,表3-1 N、三因素二水平完全实施方案,特点:一个因素各水平与其它因素各水平组合机会相等;处理数为:a b c;优点:可分析所有因素的简单效应、主效应和交互作用,提供的信息量较大。缺点:试验因素和水平较多时方案过于庞大,实施起来难度大。,2.2 不完全实施方案,用完全方案的一部分处理构成试验方案。,经验设计正交设计 均匀设计回归设计 配方试验设计,对于单因素或两因素试验,因其因素少,试验的设计、实施与分析都比较简单。但在实际工作中,常常需要同时考察 3个或3个以上的试验因素,若进行全面试验,则试验的规模将很大,往往因试验条件的限制而难于实施。正交试验设计就是安排多因素试验、寻求最优水平组合 的一种高效率试验设计方法。,(1)正交试验设计,利用正交表,适用于多因素试验,以部分实施代替全面实施。常用的等水平正交表有:L4(23),L8(27),L9(34),L16(45);常用的混合水平正交表有:L8(424),L12(324),L12(622),L16(4229),L16(4423),正交试验设计的基本程序,对于多因素试验,正交试验设计是简单常用的一种试验设计方法,其设计基本程序如图所示。正交试验设计的基本程序包括试验方案设计及试验结果分析两部分。,试验目的与要求,试验指标,选因素、定水平,因素、水平确定,选择合适正交表,表头设计,列试验方案,试验方案设计:,试验结果分析,进行试验,记录试验结果,试验结果极差分析,计算K值,计算k值,计算极差R,绘制因素指标趋势图,优水平,因素主次顺序,优组合,结 论,试验结果分析:,试验结果方差分析,列方差分析表,进行F 检验,计算各列偏差平方和、自由度,分析检验结果,写出结论,正交试验结果的直观分析法,1、选出参考最优组合2、判明各因子对试验指标影响的主次关系(1)分别计算各因素、各水平的试验指标Ki及其平均值,与Ki的极差Ri(2)比较各因素的极差R,排出各因素的主次关系,根据K值的大小,选取理论上的最优组合3、比较参考最优组合和理论最优组合,确定最终最优组合,方差分析可以分析出试验误差的大小,从而知道试验精度;不仅可给出各因素及交互作用对试验指标影响的主次顺序,而且可分析出哪些因素影响显著,哪些影响不显著。对于显著因素,选取优水平并在试验中加以严格控制;对不显著因素,可视具体情况确定优水平。但极差分析不能对各因素的主要程度给予精确的数量估计。,正交试验结果的方差分析,例21:研究有机肥(A)、氮肥(B)、磷肥(C)、钾肥(D)用量对小麦产量的影响(分析各因素的主效应),利用正交设计法设计试验方案。,1)确定试验的因素水平,表3-2 试验的因素水平(单位:kg/hm2),2)选择正交表 有个因素、每个因素有个水平,因此可选L8(27)正交表。,L8(27)正交表,L8(27)正交表的交互作用表,3)表头设计,表头设计,表3-3 正交设计实施方案(单位:kg/hm2),4)正交设计方案,正交表,注:任意两列间的交互作用为另外二列。,正交表,L8(424)正交表,特点:可设置 8 个处理,最多可分析出 5 个试验效应(包括交互效应),其中一个因素为 4 水平,其余因素为 2 水平。,正交设计时应注意:,正交设计中效应的混杂不可避免,所以在应用前必须充分考虑混杂情况,只有在效应混杂不影响试验目的的情况下才适用。试验因素越多,水平越多,混杂越严重;选用的正交表越简化,混杂的也越严重。所以在一般情况下,当因素间交互作用不清楚时应选用复杂的正交表。,(2)均匀试验设计,均匀设计是另一种部分实施的试验设计方法。它可以用较少的试验次数,安排多因素、多水平的析因试验,是在均匀性的度量下最好的析因试验设计方法。它可以使试验点在试验范围内充分地均匀分散,不仅可大大减少试验点,而且仍能得到反映试验体系主要特征的试验结果。均匀试验设计点没有整齐可比性,因此试验结果的处理不能采用方差分析法,而必须用回归分析方法线性回归或多项式回归分析。,均匀设计表,每个均匀设计表都有一个使用表,它将建议我们如何选择适当的列安排试验因素,进行试验设计,这样可以减少“试验偏差”。其中偏差为均匀性的度量值,数值小的设计表示均匀性好。例如 U7(74)的使用表为:,回归设计(也称为响应曲面设计)目的是寻找试验指标与各因子间的定量规律,考察的因子都是定量的。它是在多元线性回归的基础上用主动收集数据的方法获得具有较好性质的回归方程的一种试验设计方法。,(3)回归设计,响应面方法(Response Surface Methodology,简称RSM)是利用合理的试验设计并通过实验得到的一定数据,采用多元二次回归方程来拟合因素与响应值之间的函数关系,通过对回归方程的分析来寻求最优工艺参数,解决多变量问题的一种统计方法。响应面法目前已成为降低成本、优化加工条件的一种有效方法,广泛地应用于农业、生物、食品、化学等领域。,Plackett-Burman 设计法,Plackett-Burman,Plackett-Burman(PB)设计法是由Plackett和Burman于1946年提出的一种近饱和的2 水平试验设计方法。它建立在非完全平衡设计原理的基础上,通过N个实验至多可以研究(N1)个变量(N一般为4的倍数)。在实验过程中,通常会预留出虚拟变量作为误差分析。每个变量有高、低两个水平,分别以+、-标记,在整个Plackett-Burman设计中,每个变量取高、低水平的值各N/2次,而且在某个因素取得高(低)水平时,其他各个因素取得高、低水平各N/4次。它是用最少试验次数估计出因素的主效应,从众多的考察因素中快速有效地筛选出最为重要的几个因素供进一步研究。,BoxBehnken设计(BBD),BoxBehnken设计是Box和Behnken于1960年将2k因子设计与不完全区组设计结合而提出的三因子设计法,也就是将各因子水平转化为-1、0、1。它不像二水平因子设计将实验点选取在立方体的顶点,而是位于中心点等距的球体上(半径)。实验次数较PB设计多,当因子数k=3、4、5时,实验次数N分别为15、27、46(注:N4k(k-1)/2+c,c为中心点试验次数,需视因子数及区组来决定。如k=3、4、5时,c=3、3、6)。BoxBehnken设计主要用于估算因子的二次式影响及因子间的交互作用,而PB设计则常用于估算因子对响应变量的线性关系。BoxBehnken设计的优点是每个因素只有三水平。k3的BBD设计是十分经济的;k=4有27个设计点。当5时,一般不采用此设计。BoxBehnken设计因其因素水平少、实验次数少的优点近年来在食品工业中得到了较大关注,但同样由于其因素个数的限制(一般少于五个),使其应用范围受到了一定局限。,响应曲面中最常用的二阶设计。总试验次数N为:每个因子(变量)都可取5个水平,该方案所布的试验点范围较广。2水平(+1和-1)的全因素试验点个数,或部分实施的试验点个数 等;分布在 个坐标轴上的星号点,它们与中心点的距离 称为星号臂,是待定参数,根据一定的要求(如正交性、旋转性)调节,就可得到各种设计(如正交设计,旋转设计)。各变量都取零水平时中心点的重复试验次数,可以做1次,也可以重复多次。该方案有较大的灵活性,因为在方案中留有两个待定参数(中心点的试验次数)和(星号点的位置),这给人们留下活动余地,使二次回归设计具有正交性、旋转性等成为可能。中心点处的 次重复,使试验误差较为准确估计成为可能,从而使对方程与系数的检验有了可靠依据。,中心组合设计,譬如p=2的中心组合设计方案是:,时,组合设计由 个点组成,3、综合试验,一种大型多因素试验,通过单因素和复因素试验,可以探索出在一定条件下不同因素的最优组合,根据这个最优组合制定一整套的技术措施,再与现行生产所采用的成套技术措施相比较,研究最优组合的综合效应并检验其实用价值,这就是综合试验。所以,综合试验具有检验和示范的作用。,将所有观测值间的总变异按照其变异的来源分解为多个部份,然后进行比较,以评价由某种因素所引起的变异是否具有统计学意义。,四、方差分析,单因素试验资料的方差分析双因素试验资料的方差分析多因素试验资料的方差分析,分析:1)不同浓度生长素处理对玉米株高的影响有无差异?2)哪种浓度效果最好?,表4-1 不同浓度生长素处理对玉米株高的影响,1、单因素试验资料,例22:分析生长素浓度对玉米株高的影响。,表4-2 不同浓度生长素处理对玉米苗高影响方差分析表,A、方差分析表,由 dft=3,dfe=12,查 F 值表得:F0.05=3.49,F0.01=5.95;由于 F F0.05,所以可在 5%的显著水平上否定 H0,接受 HA,表明不同浓度生长素处理对玉米苗高的影响有显著差异。,B、多重比较,在F检验肯定处理效应显著的基础上,进一步对各处理平均数之间的差异显著性进行检验。,常用方法:,新复极差法(Duncan法、SSR法),q 值法(SNK法),1)最小显著差数法(Least significant difference,LSD法);2)最小显著极差法(Least significant range,LSR法).,结论:1)A、B两种浓度对玉米有显著促进作用,其中B浓度最好;2)C 浓度对玉米没有促进作用。,表4-3 玉米生长素试验多重比较表 LSD,多重比较的SSR值和LSR值表,表4-4 玉米生长素试验多重比较表,处理,B 48 a AA 46 ab AC 38 ab AD(CK)36 b A,处理平均(cm),差异显著性水平5%1%,多重比较的q值和LSR值表,表4-5 玉米生长素试验多重比较表,处理,B 48 a AA 46 a AC 38 a AD(CK)36 a A,处理平均(cm),差异显著性水平5%1%,Duncan法常用!,例23:作一水稻施肥的盆栽试验,设5个处理,A和B系分别施用两种不同工艺流程的氨水,C施碳酸氢铵,D施尿素,E不施氮肥。每处理4盆,共54=20盆,随机放置于同一网室中,其稻谷产量(克/盆)列于表4-6,试分析各处理平均数的差异性。,表4-6 水稻施肥盆栽试验的产量结果,表4-7 方差分析,查F表当 df1=4,df2=15时,F0.01=4.89,现实得F=11.19F0.01,故否定H0,表明处理间是有极显著差异的。,表4-8 施肥效果的多重比较(SSR测验),施用氮肥(A、B、C和D)与不施氮肥有显著差异,且施用尿素、碳酸氢铵、氨水1与不施氮肥均有极显著差异;尿素与碳酸氢铵、碳酸氢铵与氨水1、氨水1与氨水2处理间均无显著差异。,表4-9 试验数据及计算表,2.1 只有单个观察值的两因素试验资料,2、两因素试验资料,例24:,表4-10 表4-9资料的方差分析表,结果表明,3个化验员的化验技术没有显著差异,不同日期牛奶的酸度有极显著差异。,注:F0.05(2,18)=3.55,F0.01(9,18)=3.60,表4-11 不同施肥方法对稻田水层中硝态氮含量的影响,例25:,单因素随机区组设计所获得的试验结果属双向分组资料,两项表中控制观察值的两个因素分别为处理和区组。,表4-12 施肥方法对稻田水层硝态氮含量影响的方差分析表,由于 F F0.01,所以可在 1%的显著水平上否定H0,接受HA,表明不同施肥方法对稻田水层中硝态氮含量的影响有极显著差异。,2.2 组合内有重复观察值的两因素试验资料,例26:施用A1、A2、A3 3种肥料于B1、B2、B3 3种土壤,以小麦为指示作物,每处理组合种3盆,得产量结果(g)于表4-13。试作方差分析。,表4-13 3种肥料施于3种土壤的小麦产量(g)(a=3,b=3,n=3,abn=27),表4-14 表4-13资料的方差分析,肥类土类的互作和肥类的效应间差异都是极显著的,而土类间无显著差异。,表4-15 表4-13资料各处理组合平均数的新复极差测验,表4-16 表4-13资料各肥类平均数的新复极差测验,由表4-16可见,肥料A1与A3、A2均有极显著的差异;但A3与A2无显著差异。,综上所述,表4-13试验结果的基本信息是:肥料A1 对小麦的增产效果最好,土类间则无显著差异;但A1施于油砂土(A1B1)却比施于其他土壤上更有突出的增产效果。,例27:有一小麦氮、磷、钾试验,氮分N0、N1、N2、N3 四个水平,磷和钾均分为施(P1,K1)与不施(P0,K0)两个水平,采用正交设计,即 表进行正交设计,小区面积 20m2,重复 3 次,随机排列,试验结果见下表。试做分析。,3、多因素试验资料,小麦氮、磷、钾肥试验结果,还需要进行处理间和氮的 4 个水平间的多重比较。,方差分析,五、回归与相关,直线相关分析与回归分析关系十分密切。它们的研究对象都是呈直线关系的相关变量。,两种分析所进行的显著性检验都是解决y与x间是否存在直线关系,二者的检验是等价的。,相关与回归的关系,*直线回归分析,有自变量和依变量区分,侧重于寻求它们之间的联系形式直线回归方程;*直线相关分析,无自变量和依变量区分,侧重于揭示它们之间的联系程度和性质计算相关系数r。,在实际进行直线回归分析时,可用相关系数显著性检验代替直线回归关系显著性检验。,例28:大豆的脂肪含量和蛋白质含量测定结果见下表,试求其相关系数。,1、一元线性回归与相关,例29:某化工厂周围植物中Hg含量与空气中Hg含量的测定值如下,试作分析。,例30:某克山病区10名健康儿童头发与血液中的Se含量测定值如下,试作相关分析和回归分析。,表5-1 9个品种的6个性状资料,A:资料来源袁志发主编试验设计与分析174-175,相关系数的应用,表5-2 6个性状间的相关系数 r0.05(7)=0.666,r0.01(7)=0.789,由性状间的相关系数分析结果可以看出,冬季分蘖与每穗粒数之间呈极限著负相关(r=-0.8982),即小麦冬季分蘖越多,那么每穗的小麦子粒数越少。其它性状之间的关系不显著。,表5-3 9个品种间的相关系数,品种间的相似性可用品种间的相关系数来表达。自由度为6-2=4,r0.05=0.811,r0.01=0.917。分析结果见表53,所有r值均大于r0.01临界值。结果表明,在6个性状上9个品种极为相似。,表5-4 特种玉米品种的相关性,中单2996、农大108、京科238、中原32以及特爆2号之间,农大高油115与高油298之间,陕白糯11、农大白早糯、京科123之间,有很高的相近度(r0.998)。不同类型玉米间的相近程度较小(r0.997),特别是糯玉米品种与其它品种的相关性最低(r0.950)。根据相近程度可以将玉米品种分为三类,普通玉米和爆裂玉米为一类,高油玉米、糯玉米各为一类。在同一类内,玉米品种的挤压膨化特性高度相似。,2、多元线性回归与相关,在实际中,与因变量 y 有关系的变量不止有一个,而是多个,它们之间的关系也不一定是线性的。例如,作物产量的高低,与播期、密度、施肥量、土壤肥力、以及雨量、光照、气温、病虫害等多种因素有关。,表5-5 10株玉米穗行数 x1,行粒数 x2与单株产量 y,例31:试建立每穗行数、行粒数与单株产量间的二元线性回归方程。,每穗行数、行粒数与单株产量间的二元线性回归方程为:,表5-6 二元线性回归方程的显著性检验方差分析表,故该二元线性回归方程极显著。,偏回归系数的显著性检验,偏回归系数的显著性检验方差分析表,可以使用,以关中地区30个小麦品种(系)为材料,对蛋白质组成与面团特性的关系进行分析,可以建立主要品质性状与各蛋白组分之间的经验方程为:Y沉=-49.680+4.066X醇+4.701X谷(=0.01)(1)Y吸水率=56.0340+1.8617X醇(=0.01)(2)Y形成时间=-1.4043+0.9960X谷(=0.01)(3)Y稳定时间=-9.0873+1.2558X谷(=0.01)(4)Y耐揉指数=30.1169-12.1078X谷(=0.01)(5)Y评价值=-4.449+5.971X谷(=0.01)(6)对面包体积与沉淀值的回归分析得:Y面包体积=197.096+2.475X沉(=0.01)(7)将(1)式代入(7)式得:Y面包体积=741.34+10.0634X醇+11.635X谷(8)由(8)式可以看出,面包体积同时受谷蛋白和醇溶蛋白含量的影响。,3、曲线回归,例32:在调查环境污染物的自净过程中,测得酚的浓度(mg/L)和时间(min)的对应数据,试选择最优方程。,做散点图,进行初步判断,初步判断散点图形状近似于三种曲线以及直线:指数曲线:幂函数:双曲线:直线,决定系数R2最大,剩余平方和SSr最小!,配置回归方程,指数回归方程为最优回归方程!,例33:有一玉米氮肥用量的田间试验,试验方案和结果如下,请作回归分析。,4、多项式回归,表5-7 氮肥用量与产量的关系,4.1 一元多项式回归,表5-8 回归方程及回归系数的显著性检验,模型高度显著,各系数的影响极显著,模型可用。,多元多项式回归:在多因素试验的分析中,分析试验指标(依变量)与多个试验因素(自变量)之间的回归关系,这种回归可能是曲线或曲面的关系。,4.2 多元多项式回归,例34:在大麦氮、磷肥配比试验中,施氮肥量为每亩尿素0,3,6,9,12,15,18kg 7个水平,施磷肥量为每亩过磷酸钙0,7,14,21,28,35,42kg 7个水平,共49个处理组合,试验结果见表5-9,试作产量对于氮、磷施肥量的响应面分析。采用二元二次多项式拟合,那么产量可表示为:,表5-9 大麦氮、磷肥配比试验结果,表5-10 二元二次多项式回归分析的方差分析(全模型),b2和b3这两个偏回归系数不显著,应该将模型缩减,逐步去掉不显著的回归系数,重新建立缩减的回归模型。,表5-11 二元二次多项式回归的方差分析(缩减模型),缩减的方差分析结果见表5-11,可以看出b1,b4,b5是显著的,b2达到显著,该模型的回归变异占总变异的98%,因此可以较好地说明施用N、P对产量的影响。,表5-12 二元二次多项式回归的回归系数及其显著性测验(缩减模型),由表5-12,可以列出产量对N、P施用量的回归方程为:,主成分分析因子分析聚类分析,六、多元统计分析,在科学研究中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为科学研究提供丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在大多数情况下,许多变量之间可能存在相关性而增加了问题分析的复杂性,同时对分析带来不便。所以有必要将多指标转化为少数指标。主成分分析与因子分析就是这样一种研究降维的多元统计方法。,1、主成分分析,主成分分析是一种对多元数据的变量数目进行有效减维的方法降维统计方法。它是在保持原资料大部分信息的基础上,将存在复杂相关关系的多个指标转化为少数相互独立的综合指标的多元统计方法。,型主成分分析:在进行主成分分析之前将原始数据转换为平均数为0的中心化数据(即将每个观察值减去其相应变量的平均数),并求出其协方差矩阵(协方差矩阵等于原数据的协方差矩阵)。这种从协方差矩阵出发的主成分分析方法称为型主成分分析。型主成分分析:如果在进行主成分分析之前将原始数据减去相应变量的平均数,除以相应变量的标准差,即对数据进行标准化,再求出其协方差矩阵(协方差矩阵就是相关矩阵)。这种从相关矩阵出发的主成分分析方法称为型主成分分析。型主成分分析是常用方法。,例:对30个小麦品种的10个性状进行测定:抽穗期(天)x1、株高(cm)x2、单株穗数(穗)x3、主穗长(cm)x4、主穗粒数(粒)x5、穗下节长(cm)x6、主穗小穗数(穗)x7、每小穗粒数(粒)x8、单株粒重(g)x9、百粒重(g)x10。,表6-1 方差协方差矩阵的特征值、方差贡献率和累计贡献率,若要保留原有85%以上信息,只要保留前三个特征根,即提取前三个主成分即可。,对30个小麦品种10个性状数据进行分析,得到协方差矩阵的特征值、方差贡献率见表6-1。,根据各指标在主成分中的载荷给予主成分解释。,z1的结构式中,x2和x6的系数较大,第一主成分为植株高度因子,z2中,x5系数最大,穗部性状因子;z3中,x3和x9系数较大,植株群体大小因子。,利用主成分可以对品种比较。利用主成分对样本进行分类。,主成分分析的应用,主成分的提取原则:,Morrison,D.F.(1971)建议保留能使累计方差贡献率大于75%的前几个主成分。张尧庭、方开泰(1983)提出保留能使累计方差贡献率大于85%的前几个主成分。对于型分析,有人建议保留大于1的前几个主成分。,因子分析是主成分分析的推广和发展。因子分析与主成分分析在思路上有区别:主成分分析是寻求数据矩阵的一个线性代换主成分,令;因子分析是建立公因子f,令f。因子分析是用较少公因子的线性函数与特定因子之和来表达原观察变量的每一个分量,以达到合宜的解释原变量的相关性并降低其维数的目的。近年来,因子分析方法已成功地应用于大米品质分析和小麦品质分析中。,2、因子分析,即,其中f1,f2,f i(im)为X各分量的公共因子,各f i均值为0,方差为1,相互独立,i为xi的特定因子,只对xi起作用。矩阵A称为因子载荷阵,A中的元素aji称为xi的方差在f j上的载荷,表示xi与f j之间关系的密切程度。,因子分析模型,例:对2008年关中地区3市9县(区)67个乡镇抽取的92个田间生产小麦样品的容重、籽粒硬度、面粉L*、面粉a*、面粉b*、出粉率、灰分含量、籽粒蛋白含量、沉淀值、湿面筋含量、面筋指数、吸水率、形成时间、稳定时间、弱化度、评价值、拉伸长度、拉伸阻力、最大拉伸阻力、拉伸能量、降落数值、起始糊化温度(A)、峰值黏度(B)、起始恒温糊化阻力(C)、起始降温糊化阻力(D)、降温结束糊化阻力(E)、50 恒温糊化阻力(F)、破损值(B-D)、回升值(E-D)等29个品质性状进行因子分析,计算原始数据相关系数矩阵的特征值、方差贡献率及累计方差贡献率,结果见表6-2。,表6-2 小麦品质性状的特征值及方差贡献率,前7个主成分的累计方差贡献率达到82.14%,说明前7个主成分所包含的要素信息量可以反映出29个品质性状原始特征参数的大部分信息(80%)。因此,可将影响小麦品质的29个指标压缩成7个主成分。,方差最大正交旋转变换后的因子载荷阵,沉淀值、面筋指数、形成时间、稳定时间、弱化度、评价值、拉伸阻力、最大拉伸阻力、拉伸能量在因子1上的载荷较大,表明因子1对这九个品质性状起支配作用,主要反映蛋白质的质量特性,故将因子1称为蛋白质质量因子。,因子2称为加工品质因子因子3称为淀粉糊化特性因子因子4称为面筋数量因子因子5称为籽粒物理品质因子因子6称为淀粉热糊稳定因子因子7称为淀粉回升因子,3、聚类分析,聚类分析是根据“物以类聚”的道理,对多样品或指标进行分类的一种多元统计分析方法。与多元分析的其他方法相比,聚类分析较为粗糙,理论上还不完善,但应用方面取得了很大成功。聚类分析方法很多,但其核心只有两个,一个是样品的相似度量问题