第4章统计推断.ppt
第四章 统计推断,第一节 假设检验的方法第二节 单个样本平均数假设测验第三节 两个样本平均数假设测验第四节 参数的区间估计,学习目的,理解假设检验与区间估计的原理掌握假设检验的步骤对实际问题进行统计测验及总体参数估计,第一节 假设检验的方法,统计推断的概念,统计数,抽样分布,统计推断,一.统计推断的概念,统计推断:是指根据已知样本的特征特性,推断总体的特征特性。统计推断能排除试验误差影响,揭示出事物的内在规律。假设检验 参数估计,2.统计推断在统计方法中的地位,统计方法,统计描述,统计推断,假设检验,参数估计,例 某地区的当地小麦品种一般亩产300kg,其标准差为75kg,现有某新品种通过25个小区的试验,计得其样本平均产量为每亩330kg,问新品种产量与当地品种产量是否有显著差异?,实例,提出假设假设新品种产量与当地品种产量无差异,=300,x=330,=300,抽样分布,+1.96,样本均值,330,我们是拒绝还是接受=300?,假设宣称的叙述为真(假设新品种产量与当地品种产量无差异,即x=330属于N(300,75)总体),如果推得实验结果发生的可能性很低,则叙述不真。“小概率原则”是指小概率事件在一次观测或试验中一般是不会发生的。如果在一次观测中,小概率事件居然发生了,我们就有理由认为这个现象是不合适的。,3.假设测验的理论基础,1.假设:对总体参数的一种看法 无效假设(或零假设 null hypothesis 备择假设(或对立假设alternative hypothesis),二、假设测验的步骤,如,假设我们所研究的样本是来自指定的总体,这称为无效假设。常表示的形式有:H0:=0 H0:=C H0:1-2=0 H0:1,什么是无效假设,与无效假设对立的假设。常表示的形式有:HA:0 HA:C HA:1-20 HA:1,什么是备择假设,2.确定显著水平Significance Level,用来推断无效假设否定与否的概率标准叫做显著水平研究者根据试验的要求和试验的结论的重要性而定 试验中难以控制的因素较多,试验误差可能较大,则取大值。如果试验耗费较大,对精确度要求较高,不容许反复,则取小值。,=0.05时否定原假设,称差异性是显著的,显著性检验,=0.01时否定原假设,称差异性是极显著的,3.测验计算,1、在无效假设正确的假定下,依据统计数的抽样分布,计算样本平均数的出现概率。2、确定适当的测验统计量是大样本还是小样本总体方差已知还是未知,(1)已知时的假设检验在H0:=0成立时有(2)未知时的假设检验当n30时近似服从正态分布当n30时服从t分布,4、作出统计决策,根据给定的显著水平,查表得出相应的临界值u()或u(/2)将测验统计量的值与水平的临界值进行比较得出接受或拒绝无效假设的结论,(1)提出假设,包括无效假设和备择假设。(2)规定测验的显著水平 值。(3)在无效假设确定的情况下,计算概率。(4)统计推断。(5)生物学意义说明。,综合上述,统计假设测验的步骤可总结如下:,第二节 单个样本平均数假设测验,例1,某地区的当地小麦品种一般亩产300kg,其标准差为75kg,现有某新品种通过25个小区的试验,计得其样本平均产量为每亩330kg,问新品种产量与当地品种产量是否有显著差异?,1.假设,先假设新品种产量与当地品种产量无差异,记作H0:新=原=300kgHA:新原,2.确定显著水平,取=0.05,在假定H0成立的前提下进行计算,3.统计计算,查附表2,当u=2时,P(概率)界于0.04和0.05之间,即330kg在原抽样总体中出现的概率小于5%,根据小概率不可能原理,拒绝H0,接受HA,4.统计推断,5.生物学意义说明,新品种产量与当地品种产量有显著差异,例2 某春小麦良种的千粒重0=34g,现自外地引入一高产品种,在8个小区种植,得其千粒重(g)为:35.6、37.6、33.4、35.1、32.7、36.8、35.9、34.6,问新引入品种的千粒重是否与当地良种有显著差异?,这里总体 为未知,又是小样本,故需用t 测验;,1.假设H0:34g;对HA:34g。,2.取显著水平=0.05。,3.概率计算:,4.统计推断:,查附表,df=7时,t=2.069t0.05=1.895。故P0.05。,5.推断:拒绝H0:34g,即新引入品种千粒重显著高于当地良种。,假设测验的理论基础为,“小概率事件实际不可能原理”样本平均数的抽样分布,样本平均数的抽样分布,a、从正态总体抽取的样本,无论样本容量多大,其样本平均数x的抽样分布必成正态分布。b、不是正态分布,当样本容量n足够大时,从这一总体抽出样本平均数x的分布趋于正态分布。c、不是正态分布,当样本容量n较小时,样本平均数x的分布趋于t分布。,(1)已知时的假设检验在H0:=0成立时有(2)未知时的假设检验当n30时近似服从正态分布当n30时服从t分布,已知普通水稻单株产量符合正态分布N(250,2.782)。现测得10株杂交水稻单株产量分别为272、200、268、247、267、246、363、216、206、256。问杂交稻单株产量与普通水稻单株产量是否有差异?,两尾测验与一尾测验,H0,抽样分布,接收区,样本均值,1-,拒绝区,拒绝区,H0,抽样分布,接收区,样本均值,1-,拒绝区,临界值,假设测验的两类错误,(1)选取适当的值:选取数值小的值,如从5%变为1%,可以降低犯I型错误的概率,但是将增大第二类错误的概率。(2)增加试验重复次数:如果显著水平已固定下来,则改进试验技术和增加样本容量,提高试验的精确度,可以有效地降低犯第二类错误的概率。(3)对于田间试验,由于试验条件不容易控制,试验误差较大,应选取较高值,以降低犯II型错误的概率。,关于两类错误的讨论可总结如下:,由两个样本平均数的相差,以测验这两个样本所属的总体平均数有无显著差异。,测验方法,成组数据的平均数比较,成对数据的比较,第三节 两个样本平均数的假设测验,(一)成组数据的平均数比较,1.u检验 两个样本总体方差已知,或总体方差未知,但为大样本时采用,例1 已知早稻佳辐品种2=1.35,用A、B两种方法取样,A取15个样点,平均产量x1=7.69;B法取9个样点,平均产量x2=8.77。检验两种取样法测得的小区产量是否有差异?,2.t检验,在两个样本的总体方差未知(12=22=2),且为小样本时,用t检验在两个样本的总体方差未知(1222 2),且为小样本时,用近似t检验,两个总体方差的检验F检验,对于来自于两个总体的样本,其总体方差分别为12和22,从两个总体中独立抽取容量为n1和n2的样本,对应样本的方差分别为S12与S22。该统计量服从分子自由度为n1-1,分母自由度n2-1的F分布。,1、它是一种非对称分布,取值范围是(0,+);2、它有两个自由度,求F时,将数值大的均方放在分子,数值小的均方放在分母;3、F分布是随自由度变化的一簇偏态,不同的自由度决定了F 分布的形状。,例,某厂家从两个供货商进货,分别是货物A和货物B。已经列出两种货物的样本数据,如表所示。问货物A的重量波动是否明显高于货物B。,在两个样本的总体方差未知(12=22=2),且为小样本时,用t检验,例2 测得马铃薯两个品种鲁引1号和大西洋的块茎干物质含量结果如表,检验两个品种马铃薯的块茎干物质含量有无差异?两个品种马铃薯干物质含量(%),差数平均数的标准误为:,它具有 v=n1。若假设,则上式改为:,(二)成对数据的比较,例4-7 选生长期、发育进度、植株大小和其他方面皆比较一致的两块地的红心地瓜苗配成一对,共有6对。每对中一块地按标准化栽培,另一块地进行绿色有机栽培,用来研究不同栽培措施对产量的影响,每块地瓜产量见表。检验两种栽培方式的地瓜产量是否有差异。,表 两种栽培方法的地瓜产量 单位(kg/亩),第四节 参数估计parameter estimation,参数估计:所谓参数估计根据样本统计量对总体参数进行估计。点估计:将样本数据计算的统计量的观测值作为总体的参数估计值。区间估计:是指在一定的概率保证之下,用特征数估计总体参数的可能取值范围。,一、什么是参数估计,在点估计中,用某个统计量作为总体参数的估计值,如x作为的估计值。而区间估计中,要求出两个统计量来分别估计总体参数的上限和下限,使在区间L1,L2的概率为1-。1-称为置信水平 L1,L2称为置信区间,在总体方差 为未知时 因为 服从自由度为n-1的t分布,两尾概率为时,有,置信区间为:,例1 已算得某春小麦良种在8个小区的千粒重平均数,。试估计在置信度为95%时该品种的千粒重范围。,由附表查得 df=7时 t0.05=2.365,故有,即,推断:该品种总体千粒重95%置信度的区间是 33.836.6g。,某厂商需要对其货物的平均重量进行估计。已知货物重量的总体标准差为8kg,在随机抽取60个样本称重后计算出平均值为45kg,求该仓库中货物平均重量的点估计和95%置信水平下的区间估计。,