抽样调查与参数估计.ppt
4-1,第四章 抽样调查与参数估计(6课时),第一节 有关基本概念 第二节 概率抽样方法第三节 总体参数估计第四节 调查问卷的设计,4-2,抽样与参数估计,有关基本概念,概率抽样方法,调查问卷设计,总体参数估计,总体与样本,总体参数与样本统计量,样本容量与样本个数,重复抽样与不重复抽样,抽样框与抽样单位,概率抽样和非概率抽样,多相抽样,分层抽样,简单随机抽样,总体方差的参数估计,总体比率的参数估计,总体均值的参数估计,问卷的措辞,调查问卷的作用和结构,抽样误差和非抽样误差,整群抽样,系统抽样,多阶段抽样,样本容量的参数确定,调查问卷的类型,询问方法,问题的顺序,4-3,抽样涉及的基本概念有:总体与样本(见第一章)样本容量与样本个数总体参数与样本统计量重复抽样与不重复抽样抽样框与抽样单位概率抽样和非概率抽样抽样的组织方式抽样误差好非抽样误差这些概念是统计学特有的,体现了统计学的基本思想与方法。,第一节 有关基本概念,4-4,一、总体和样本:总体是指研究对象的全体,它是由研究对象中的单元组成的。总体中包含单元的数目称作总体容量(或大小);样本是指抽样时按照抽样的规则所抽中的那部分单元所组成的集合。,总体,样本,抽取样本,推断总体,4-5,1.总体:又称全及总体、母体,指所要研究对象的全体,由许多客观存在的具有某种共同性质的单位构成。总体单位数用 N 表示。2.样本:又称子样,来自总体,是从总体中按随机原则抽选出来的部分,由抽选的单位构成。样本单位数用 n 表示。3.总体是唯一的、确定的,而样本是不确定的、可变的、随机的。,4-6,二、样本容量与样本个数,样本容量:一个样本中所包含的单位数,用n表示。必要样本量是能够满足估计精度要求的最少样本量。样本个数:又称样本可能数目,指从一个总体中所可能抽取的样本的个数。用A表示。对于有限总体,样本个数可以计算出来。样本个数的多少与抽样方法有关。(这个概念只是对有限总体有意义,对无限总体没有意义!)当N和n一定时,A的多少与抽样方法有关,其计算方法列表如下:,4-7,三、总体参数和样本统计量,总体参数:反映总体数量特征的指标。其数值是唯一的、确定的。样本统计量:根据样本分布计算的指标。是随机变量。,Jigj ij据欧辰进口片刻psd就看破速度紧迫,四、重复抽样和不重复抽样,1、重复抽样又称放回抽样或重置抽样,它是指抽中一个单位并登记有关信息后重新放回到总体中继续参加下一次的抽选,这样逐次反复,直到抽够足够的单位为止。在重复抽样的条件下,每个单位中选的机会在各次抽样中都完全相等。2、不重复抽样又称不放回抽样或不重置抽样,它是指抽中一个单位并登记有关信息后不再放回到总体中,而是继续从总体中余下的单位抽选样本单位,直到抽够足够的单位为止。在不重复抽样的条件下,每个单位中选的机会在各次抽样中是不相等的,每个单位只能被抽中一次。,4-9,4-10,五、抽样框和样本单位抽样框是在抽样前,为便于抽样工作的组织,在可能条件下编制的用来进行抽样的、记录或表明总体所有抽样单元的框架,在抽样框中,每个抽样单元都被编上号码。抽样框可以是一份清单(名单抽样框)、一张地图(区域抽样框)。编制抽样框是一个实际的、重要的问题,因此必须要认真对待。常见的抽样框问题可以概括为四种基本类型:(1)缺失一些元素,即抽样框涵盖不完全;(2)多个元素对应一个号码;(3)空白或存在异类元素;(4)重复号码,即一个元素对应多个号码。对抽样框存在的缺陷要认真对待,有效处理。,从抽样框中直接抽取的单位称为抽样单位。但它不一定是构成抽样框的最小单位。根据不同的抽样设计,抽样单位有较大的变动余地。例如在电视收视率的抽样调查中,抽样单位可以是拥有电视机的家庭,也可以是每个电视观众。可以将较小的抽样单位的集合视为较大的抽样单位。在复杂抽样时,例如在多阶段抽样中,先抽取较大的抽样单位(称为初级单位),再从选出的初级单位中抽取次级单位(或二级单位),往下还可以分为更小的三级单位、四级单位,等等。可以把抽样框中所包含抽样单位信息的丰富程度作为评价抽样框质量的一个标准。在好的抽样框中,抽样单位的信息比较丰富,这就为采用复杂的抽样设计(如分层抽样)和不同的估计方法(如比率估计)提供了条件。,4-11,4-12,六、概率抽样和非概率抽样,4-13,(一)非概率抽样,1.非概率抽样及其优缺点非概率抽样是用非随机的方法抽选样本。优点:快速简便;费用相对比较低;不需要任何抽样框;对探索性研究和调查设计的开发很有用。缺点:不能对总体进行推断;由于不知总体单元的入样概率,故不能计算估计值的抽样误差。,4-14,2.各种非概率抽样方法方便抽样,又称任意抽样。样本单元的选取有调查员决定,又被调查者主动提供信息。如街道拦截访问。志愿者抽样。被调查者都是自愿参与调查。如网上问卷,自愿回答。判断抽样。由专家有目的地挑选“有代表性”的样本进行调查。如典型调查。配额抽样。从总体的各个子总体中选取特定数量的样本单元组成样本。如市场调查中,规定男女消费者的样本各多少。滚雪球抽样。适合于总体中某种较为稀少的特殊子总体而又缺少完整的抽样框。抽样时通过已知的少数个体获得信息逐渐扩大。,4-15,(二)概率抽样,概率抽样是从总体中随机抽选样本单元,被抽中的单元既不取决于调查人员的愿望,也不取决于被被调查者的态度。其次每一个单元都有一定的概率被抽中。优点:可以对总体进行推断,并能计算估计值的抽样误差。缺点:相对于非概率抽样,设计比较复杂,而且费用也比较高。常见的概率抽样方法主要有:简单随机抽样、系统抽样、与大小(或规模)成比例的概率(PPS)抽样、整群抽样、分层抽样(STR)、多阶抽样、以及多相抽样等。,七、抽样误差和非抽样误差,抽样误差是指由于抽选样本的随机性,用样本数据对总体参数进行估计是所引起的误差。只有采取概率抽样方式才能产生样误差,得到估计量的精度,因此我们说抽样误差仅仅表现于概率抽样方式之中。与非概率抽样方式相比,能够计算抽样误差是概率抽样最突出的优点。非抽样误差是指除抽样误差以外的,由于各种原因而引起的误差,例如抽样框有缺陷,目标总体单位和抽样单位没有能够一一对应;调查中一些被调查者拒绝回答问题,调查人员没得到全部样本数据;由于各种原因(测量、遗忘或有意隐瞒等),调查中获得的原始数据不正确,以及在对调查数据进行编码、录入、汇总过程中可能出现差错,都会产生非抽样误差。,4-16,八、样本量、费用与精度,样本量是样本中包含抽样单位的数目,样本量的确定是抽样中的一个重要问题,样本量越大,抽样误差就越小,估计量的精度就越高。但样本量有直接与费用有关,样本量越大调查的费用也就越高。样本量与调查费用之间是一种线性关系,最简单的函数形式为式中,C0是与样本量n无关的固定费用,如抽样方案的设计,抽样框的准备,调查的组织、宣传等项开支,c是与n有关的费用,包括调查本身的费用、旅费、礼品费及数据处理费等。,4-17,然而样本量与调查精度之间是一种非线性关系。在样本量较小时,每增加一个样本单位对提高精度的影响比较大,随着样本量的增大,每增加一个样本单位的影响就逐渐减少。因此,一个好的抽样设计必须考虑精度与费用两个方面。这里想要说明的一层含义是:对于不同的调查项目,精度的要求是不同的,调查时应以满足需要的精度为原则,想要说明的另一唱层含义是,由于不同的抽样设计会有不同的费用和精度,因此对于一个具体的抽样设计,应尽量做到在一定费用下使精度最高,或在达到精度条件下使总费用最省,即使设计的效率最高,这样的抽样设计称为最优抽样设计。,4-18,4-19,第二节 主要的概率抽样方法(一)简单随机抽样 1、定义:简单随机抽样是从总体的N个抽样单元中,每次抽取一个单元时,使每一个单元都有相等的概率被抽中,连续抽n次,以抽中的n个单元组成简单随机样本。2、优点:(1)比较容易理解和掌握;(2)抽样框不需要其他辅助信息;(3)理论上比较成熟,有现成的方差估计公式。3、缺点:(1)没有利用辅助信息;(2)样本分散,面访费用较高;(3)有可能抽到较差的样本;(4)抽选大样本比较费时。,4-20,(二)系统抽样 1、定义:又称等距抽样,对研究的总体按一定的顺序排列,每隔一定的间隔抽取一个单元的抽样方法。2、抽选方法:设总体单元数为N,要抽n个单元为样本,先计算抽样间隔k=N/n,在1到k之间抽取一个随机起点r,则被抽中单元的顺序位置是:r,r+k,r+2k,。,起点r,r+k,r+2k,r+3k,4-21,圆形系统抽样方法:当N不能被n整除时,用圆形系统抽样法可以避免出现样本量可能不一致的情况。把总体单元假想排列在一个圆上,取 k=N/n 最接近的整数,作为间隔,然后在1到N之间,抽取随机起点 r,则被抽中的单元顺序号为:r,r+k,r+2k,r+(n-1)k。如:N=55,n=9,就取k=6,在1到55之间取一个随机起点。例如r=42,则被抽中的单元是42,48,54,5,11,17,23,29和35。,4-22,3、系统抽样的优点(1)没有抽样框时可代替简单随机抽样方法简单;(2)不需要辅助的抽样框信息;(3)样本的分布比较好;估计值容易计算。4、系统抽样的缺点(1)若抽样间隔与总体的某种周期性变化一致,会得一个差的样本;(2)不使用辅助信息使抽样效率不高;(3)使用概念框时,不能预先知道样本量;(4)没有一个无偏的方差估计量;(5)当N不能被n整除时会得到样本量不同的样本。,4-23,(三)整群抽样 1、定义:由若干个有联系的基本单元组成的集合称为群,抽样时以群为抽样单元的抽样方法就称为整群抽样。整群抽样示意图:,黄色为总体红色为群白点为基本单元,4-24,2、整群抽样的优点:(1)能大大减低收集数据的费用;(2)当总体单元自然形成的群时,容易取得抽样框,抽样也更容易;(3)当群内单元差异大,而不同群之间的差异小时,可以提高效率。3、缺点:(1)若群内个单元有趋同性,效率将会降低;(2)通常无法预先知道总样本量,因为不知道群内有多少单元;(3)方差估计比简单随机抽样更为复杂。,4-25,(四)分层抽样 1、定义:在抽样之前将总体分为同质的、互不重叠的若干子总体,也称为层。然后在每一个层独立地随机抽取样本。分层抽样示意图:,4-26,2、优点:(1)由于性质相同的单元分在同一层,层内差异缩小,可以提高抽样效率;(2)可以得到各层子总体的估计;(3)操作与管理方便;(4)能避免得到一个“差”的样本。3、缺点:(1)对抽样框的要求比较高,必须有分层的辅助信息;(2)收集或编制抽样框的费用比较高;(3)若调查变量与分层的变量不相关,效率可能降低;(4)估计值的计算比简单随机抽样复杂。,4-27,(五)多阶抽样 1、定义:它是由两个或更多个连续的阶段抽取样本的方法。多阶抽样示意图:,总体,第一阶样本,最终样本,4-28,2、优点:(1)当群具有同质性时,多阶抽样的效率高于整群抽样;(2)样本的分布比简单随机抽样集中,采用面访可以节约时间和费用;(3)不需要整个总体单元的名录框,只要群的名录框和抽中群的单元名录框。3、缺点:(1)效率不如简单随机抽样;(2)通常不能提前知道最终的样本量;(3)调查的组织较整群抽样复杂;(4)估计值与抽样方差的计算较为复杂。,4-29,(六)多相抽样 1、定义:在同一个抽样框内,先抽一个大样本,收集基本的信息,然后在这个大样本中再抽一个子样本,收集调查的详细信息。多相抽样示意图:,。,。,。,第一相样本,第二相样本,4-30,2、优点:能显著提高估计值精度(与简单随机抽样相比);能用来获得抽样框中所没有的辅助信息(特别是分层信息);适用于某些调查指标的数据收集费用特别高,或会给被调查者带来较重的回答负担的情况。3、缺点:如果需要根据第一相的结果来进行第二相调查,得到整个调查结果的时间比单相调查长;由于对某些样本单元访问次数超过一次,故所需费用比一相调查要多;调查的组织会很复杂;估计值和抽样误差的计算会相当复杂。,4-31,抽样分布,抽样分布的概念:由样本统计量的全部可能取值和与之相应的概率(频率)组成的分配数列。(主要求出样本平均数的期望与方差)包括以下内容重置抽样分布样本平均数的分布样本成数的分布样本方差的分布不重置抽样分布样本平均数的分布样本成数的分布样本方差的分布,4-32,总体中各元素的观察值所形成的分布 分布通常是未知的可以假定它服从某种分布,总体分布(population distribution),4-33,一个样本中各观察值的分布 也称经验分布 当样本容量n逐渐增大时,样本分布逐渐接近总体的分布,样本分布(sample distribution),4-34,样本统计量的概率分布,是一种理论分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 随机变量是 样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,抽样分布(sampling distribution),4-35,抽样分布的形成过程(sampling distribution),样本均值的抽样分布,4-37,1.在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布2.一种理论概率分布3.推断总体均值的理论基础,一、样本均值的抽样分布,4-38,样本均值的抽样分布(例题分析),【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4。总体的均值、方差及分布如下,均值和方差,4-39,样本均值的抽样分布(例题分析),现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,4-40,样本均值的抽样分布(例题分析),计算出各样本的均值,如下表。并给出样本均值的抽样分布,4-41,样本均值的分布与总体分布的比较(例题分析),=2.5 2=1.25,总体分布,4-42,样本均值的抽样分布与中心极限定理,当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x 的数学期望为,方差为2/n。即xN(,2/n),4-43,中心极限定理(central limit theorem),从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为,方差为2/n的正态分布,4-44,中心极限定理(central limit theorem),x 的分布趋于正态分布的过程,4-45,抽样分布与总体分布的关系,总体分布,正态分布,非正态分布,大样本,小样本,样本均值正态分布,样本均值正态分布,样本均值非正态分布,4-46,样本均值的数学期望样本均值的方差重复抽样不重复抽样,样本均值的抽样分布(数学期望与方差),4-47,样本均值的抽样分布(数学期望与方差),比较及结论:1.样本均值的均值(数学期望)等于总体均值 2.样本均值的方差等于总体方差的1/n,4-48,统计量的标准误(standard error),样本统计量的抽样分布的标准差,称为统计量的标准误,也称为标准误差标准误衡量的是统计量的离散程度,它测度了用样本统计量估计总体参数的精确程度以样本均值的抽样分布为例,在重复抽样条件下,样本均值的标准误为,4-49,估计的标准误(standard error of estimation),当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误以样本均值的抽样分布为例,当总体标准差未知时,可用样本标准差s代替,则在重复抽样条件下,样本均值的估计标准误为,样本比例的抽样分布,4-51,总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品)与全部产品总数之比总体比例可表示为样本比例可表示为,比例(proportion),4-52,在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布一种理论概率分布当样本容量很大时,样本比例的抽样分布可用正态分布近似 推断总体比例的理论基础,样本比例的抽样分布,4-53,样本比例的数学期望样本比例的方差重复抽样不重复抽样,样本比例的抽样分布(数学期望与方差),样本方差的抽样分布,4-55,样本方差的分布,在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布对于来自正态总体的简单随机样本,则比值 的抽样分布服从自由度为(n-1)的2分布,即,4-56,1.由阿贝(Abbe)于1863年首先给出,后来由海尔墨特(Hermert)和卡皮尔逊(KPearson)分别于1875年和1900年推导出来2.设,则3.令,则 Y 服从自由度为1的2分布,即4.当总体,从中抽取容量为n的样本,则,2分布(2 distribution),4-57,1.分布的变量值始终为正 2.分布的形状取决于其自由度n的大小,通常为不对称的正偏分布,但随着自由度的增大逐渐趋于对称 3.期望为E(2)=n,方差为D(2)=2n(n为自由度)4.可加性:若U和V为两个独立的服从2分布的随机变量,U2(n1),V2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布,2分布(性质和特点),4-58,c2分布(图示),4-59,c2分布(例题的图示),4-60,c2分布(用Excel计算c2分布的概率),利用Excel提供的CHIDIST统计函数,计算c2分布右单尾的概率值语法为CHIDIST(x,df),其中df为自由度,x是随机变量的取值给定自由度和统计量取值的右尾概率,也可以利用“插入函数”命令来实现计算自由度为8,统计量的取值大于10的概率,4-61,c2分布(用Excel计算c2分布的临界值),利用Excel提供的CHIINV统计函数,计算分布右单尾的概率值为的临界值语法为CHIINV(,df),其中df为自由度给定自由度和分布右尾概率为的临界值也可以利用“插入函数”命令来实现计算自由度为10,右尾概率为0.1的临界值,4-62,c2分布(用Excel生成c2分布的临界值表),第一步:将c2分布自由度df的值输入到工作表的 A列,将右尾概率的取值输入到第1行第二步:在B2单元格输入公式“=CHIINV(B$1,$A2)”然后将其向下、向右复制即可得到分布 的临界值表,4-63,第三节 总体参数估计,本节主要内容:一、总体参数估计概述二、总体参数的点估计三、参数区间估计四、样本容量的确定,4-64,一、总体参数估计概述,设待估计的总体参数是,用以估计该参数的统计量是,抽样估计的极限误差是,即:极限误差是根据研究对象的变异程度和分析任务的性质来确定的在一定概率下的允许误差范围。参数估计的两个要求:精度:估计误差的最大范围,通过极限误差来反映。显然,越小,估计的精度要求越高,越大,估计的精度要求越低。极限误差的确定要以实际需要为基本标准。可靠性:估计正确性的一个概率保证,通常称为估计的置信度。,4-65,二、总体参数的点估计,点估计的含义:直接以样本统计量作为相应总体参数的估计量。,4-66,优良估计量标准,优良估计标准:无偏性:要求样本统计量的平均数等于被估计的总体参数本身。一致性:当样本容量充分大时,样本统计量充分靠近总体参数本身。有效性:,总体方差的无偏估计量为样本方差,点估计完全正确的概率通常为0。因此,我们更多的是考虑用样本统计量去估计总体参数的范围 区间估计。,4-67,三、参数区间估计,参数区间估计的含义:估计总体参数的区间范围,并给出区间估计成立的概率值。其中:1-(01)称为置信度;是区间估计的显著性水平,其取值大小由实际问题确定,经常取1%、5%和10%。,注意对上式的理解:例如抽取了1000个样本,根据每一个样本均构造了一个置信区间,这样,由1000个样本构造的总体参数的1000个置信区间中,有95%的区间包含了总体参数的真值,而5%的置信区间则没有包含。这里,95%这个值被称为置信水平(或置信度)。一般地,将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平。,4-68,我们用95%的置信水平得到某班学生考试成绩的置信区间为60-80分,如何理解?错误的理解:60-80区间以95%的概率包含全班同学平均成绩的真值;或以95%的概率保证全班同学平均成绩的真值落在60-80分之间。正确的理解:如果做了多次抽样(如100次),大概有95次找到的区间包含真值,有5次找到的区间不包括真值。真值只有一个,一个特定的区间“总是包含”或“绝对不包含”该真值。但是,用概率可以知道在多次抽样得到的区间中大概有多少个区间包含了参数的真值。如果大家还是不能理解,那你们最好这样回答有关区间估计的结果:该班同学平均成绩的置信区间是60-80分,置信度为95%。,4-69,区间估计的基本要素,包括:样本点估计值、抽样极限误差、估计的可靠程度样本点估计值抽样极限误差:可允许的误差范围。抽样估计的可靠程度(置信度、概率保证程度)及概率度注意:本教材所进行的区间估计仅指对总体平均数或成数的区间估计,并且在实际计算过程中使用下面的式子。式中是极限误差。,4-70,区间估计的内容,4-71,平均数的区间估计,对总体平均数或成数的区间估计时,使用下面的式子(式中是极限误差)有两种模式:1、根据置信度1-,求出极限误差,并指出总体平均数的估计区间。2、给定极限误差,求置信度。,4-72,当已知时,根据相关的抽样分布定理,服从标准正态分布N(0,1)。查正态分布概率表,可得(一般记为),则,根据重复抽样与不重复抽样的 求法的不同,进一步可得总体平均数的估计区间:重复抽样时,区间的上下限为:不重复抽样时,区间的上下限为:,平均数区间估计第1种模式(求置信区间),4-73,4-74,平均数区间估计第1种模式(求置信区间),若总体方差未知,则在计算 时,使用样本方差代替总体方差,此时 服从自由度为n-1的t分布。查t分布表可得,并记为于是:重复抽样时,区间的上下限为:不重复抽样时,区间的上下限为:,大样本时,t分布与标准正态分布非常接近,可直接从标准正态分布表查临界值,4-75,例:总体平均数的区间估计1,对某型号的电子元件进行耐用性能检查,抽查资料分组如下表,要求估计该批电子元件的平均耐用时数的置信区间(置信度95%)。,4-76,68.27%的样本,表示样本均值落在区间的概率是1-,例,对总体均值区间估计的进一步理解,4-77,平均数区间估计第2种模式(求置信度),给定极限误差,求置信度,4-78,例:总体平均数的区间估计2,例:经抽样调查计算样本亩产粮食600公斤,并求得抽样平均误差为3公斤,现给定允许极限误差为6公斤,求置信区间包含总体平均亩产的概率,即求置信水平。,结果表明,如果多次反复抽样,每次都可以由样本值确定一个估计区间,每个区间或者包含总体参数的真值,或者不包含总体参数的真值,包含真值的区间占F(z),即每一万次抽样,就有9545个样本区间包括总体亩产,其余455个样本区间不包括总体平均数,即若接受估计区间的判断要冒4.55%的机会犯错误的风险。,4-79,成数的区间估计,由于总体的分布是(0,1)分布,只有在大样本的情况下,才服从正态分布。总体成数可以看成是一种特殊的平均数,类似于总体平均数的区间估计,总体成数的区间估计的上下限是:注意:在实践中,由于总体成数常常未知,这时,抽样平均误差公式中的总体成数用样本成数代替。大样本的条件:np5且n(1-p)5,由于总体成数通常未知,可以用样本成数p来近似判断。,4-80,例:总体平均数的区间估计3,对某型号的电子元件进行耐用性能检查,抽查资料分组如下表,设该厂的产品质量检验标准规定,元件耐用时数达到1000小时以上为合格品。要求估计该批电子元件的合格率,置信水平95%。,4-81,总体均值区间估计总结,如果是正态总体,4-82,如果不是正态总体,或分布未知,此时不考虑小样本情况,因此,大样本情况下,直接用标准正态分布求置信区间即可。,4-83,总体成数估计区间估计总结,总体成数估计区间的上下限只考虑大样本情况(请记住大样本条件),4-84,对总量指标的区间估计,在对总体平均数进行区间估计的基础上,可进一步推断相应的总量指标,即用总体单位总数N分别乘以总体平均数的区间下限和区间上限,便得到相应总量(N)的区间范围。,4-85,例1,某厂对一批产品的质量进行抽样检验,采用重复抽样抽取样品200只,样本优质率为85%,试计算当把握程度为90%时优质品率的区间范围。,4-86,例2,某商场从一批食品(共800袋)中随机抽取40袋(假设用重复抽样),测得每袋平均重量为791.1克,标准差为17.136克,要求以95%的把握程度,估计这批食品的平均每袋重量以及这批食品总重量的区间范围。,800*778.84,800*803.36,即623072,642688,4-87,样本容量的确定,什么是样本容量确定问题?,4-88,确定样本容量,在设计抽样时,先确定允许的误差范围和必要的概率保证程度,然后根据历史资料或试点资料确定总体的标准差,最后来确定样本容量。,4-89,确定样本容量应注意的问题,计算样本容量时,一般总体的方差与成数都是未知的,可用有关资料替代:一是用历史资料已有的方差与成数代替;二是在进行正式抽样调查前进行几次试验性调查,用试验中方差的最大值代替总体方差;三是成数方差在完全缺乏资料的情况下,就用成数方差的最大值0.25代替。如果进行一次抽样调查,同时估计总体均值与成数,用上面的公式同时计算出两个样本容量,可取一个最大的结果,同时满足两方面的需要。上面的公式计算结果如果带小数,这时样本容量不按四舍五入法则取整数,取比这个数大的最小整数代替。例如计算得到:n=56.03,那么,样本容量取57,而不是56。,4-90,例:确定样本容量1,对某批木材进行检验,根据以往经验,木材长度的标准差为0.4米,而合格率为90%。现采用重复抽样方式,要求在95.45%的概率保证程度下,木材平均长度的极限误差不超过0.08米,抽样合格率的极限误差不超过5%,问必要的样本单位数应该是多少?,4-91,例:确定样本容量2,对某批木材进行检验,根据以往经验,木材的合格率为90%、92%、95%。现采用重复抽样方式,要求在95.45%的概率保证程度下,抽样合格率的极限误差不超过5%,问必要的样本单位数应该是多少?,4-92,其他抽样组织形式下的抽样误差,本节主要内容:抽样估计效果的衡量与抽样组织形式简单随机抽样类型抽样整群抽样等距抽样阶段抽样不同抽样组织设计的比较,4-93,一、抽样估计效果的衡量与抽样组织形式,抽样估计效果好坏,关键是抽样平均误差的控制。抽样平均误差小,抽样效果从整体上看就是好的;否则,抽样效果就不理想。抽样平均误差受以下几方面的因素影响:一是总体的变异性,即与总体的标准差大小有关二是样本容量三是抽样方法。四是抽样的组织形式抽样的组织形式有如下几种:简单随机抽样、类型抽样、等距抽样、整群抽样、阶段抽样,4-94,二、简单随机抽样,4-95,三、类型抽样,含义:又称分层抽样。对总体各单位按一定标志加以分组,然后从每一组中按随机原则抽取一定单位构成样本。,得到样本如下:,4-96,类型抽样求样本平均数,4-97,类型抽样求抽样平均误差,4-98,类型抽样求抽样平均误差,4-99,类型抽样两点结论,从类型抽样的抽样平均误差公式来看,类型抽样的抽样平均误差与组间方差无关,它决定于组内方差的平均水平。而方差的加法定理:,因此有如下结论:抽样效果一般来说好于简单随机抽样。因此在分组时应尽量扩大组间方差(组间差异),缩小组内方差(组内差异),从而减少抽样误差,提高抽样效果。,4-100,类型抽样例,假设某农场种植小麦1 200亩,根据其地理条件划分为甲、乙、丙三类,按5%的比例总共抽取60亩进行调查,结果如下表所示。试以95%的概率估计农场平均亩产量的区间范围。,4-101,四、整群抽样,定义:又称集团抽样。将总体各单位分为若干群,然后从中抽取部分群,对中选群的所有单位进行全面调查。,4-102,整群抽样抽样平均误差的计算,在计算抽样平均误差时假定每群单位数是相同的,但实际工作中,通常是“自然群”,其单位数一般是不等的。,4-103,整群抽样抽样效果评价,好处是操作方便、省时、省力。确定一群便可以调查许多单位,但正是由于抽样单位比较集中,限制了样本单位在总体中分配的均匀性,所以有时代表性较代,抽样误差较大。可以增加样本单位来减少误差。抽样平均误差只取决于群间方差(与类型抽样相反),因此分群时,应尽量扩大群内方差(群内差异),缩小群间方差(群间差异)来提高抽样效果。,4-104,整群抽样例1,从某县的100个村庄中抽出10村,进行调查得平均每户饲养家禽35头,各村的平均数的方差为16头,请计算平均抽样误差。,4-105,整群抽样例2,假设某水泥厂大量连续生产100公斤装水泥,一昼夜产量为14 400袋,平均每分钟产量10袋。现每隔144分钟抽取一分钟的产量(10袋为一群),一昼夜共抽取100袋水泥,观察结果如下表,试计算样本平均数的抽样平均误差,并以95%的概率估计每包水泥重量的区间范围。,4-106,五、等距抽样,含义:又称机械抽样或系统抽样。先按某个标志对总体单位进行排序,然后依固定的间隔来抽取样本单位。这样可以保证样本单位均匀地分布在总体的各个部分,有较高的代表性。总体的单位数N,需要抽取的样本单位数n,则等距抽样的间隔大小:k=N/n,总体排序标志是由总体的有关辅助信息确定的,与调查标志两者间可以有关也可以无关。1、无关标志排队:如家计调查,按门牌号码排序。2、有关标志排队:如农产量调查按平均亩产量高低排序。一般来讲,有关标志排序要比无关标志排序的机械抽样更为优越。,在排队时,要注意避免抽样间隔与现象本身的周期性节奏相重合。以减少系统偏差的影响,提高样本的代表性。,4-107,等距抽样抽样平均误差的计算,无关标志排队时,为了方便起见,可以采用简单随机抽样的平均误差代替等距抽样平均误差:,4-108,六、阶段抽样,含义:所谓阶段抽样,就是先从总体中抽出较大的范围的单位,再从中选的大单位中抽较小范围的单位,依次类推,最后从更小的范围抽出样本基本单位。阶段抽样一般应用于总体范围很大的情况。如在我国的农产量调查、职工家计调查中都很适用:先从全国抽出各个省,再从抽中的省中抽出县、市,最后抽出样本的基本单位等等。,4-109,阶段抽样两阶段抽样,两阶段抽样较为简单。本书主要分析两阶段抽样平均误差的控制问题。两阶段抽样在组织技术上可以看成是整群抽样和类型抽样的结合。设总体分成R组,每组M个单位。两阶段抽样就是:第一阶段用整群抽样方式从总体的全部R组(群)中,随机抽取r组(群);第二阶段用类型抽样方式从每个中选组中抽出m样本单位。,4-110,两阶段抽样样本平均数,4-111,两阶段抽样抽样平均误差,两阶段抽样的平均误差是由两部分构成的,第一部分是第一阶段从总体全部组抽部分组所引起的组间误差,第二部分是由第二阶段在中选组中抽部分单位所引起的组内平均误差。,4-112,七、不同抽样组织设计的比较,进行抽样设计时需要考虑的两个问题:提高样本的代表性,增加抽样的效果。抽样要满足随机性要求。抽样设计时,要充分考虑如何降低抽样的成本费用。,4-113,简单随机抽样是基本抽样组织方式,抽样推断效果如何,依赖于所抽出样本的质量;样本的质量好坏,就看样本对总体的代表性如何,而这又依赖于抽取样本时的“随机性”。如果不满足随机性,则样本的代表性就值得怀疑,抽样推断就无从进行。,4-114,类型抽样与整群抽样比较,1、抽样平均误差的决定因素不同。类型抽样的平均误差与组间方差无关,决定于组内方差的平均水平整群抽样的平均误差与组内方差无关,决定于组间方差大小2、减小类型抽样与整群抽样平均误差的方法不同。因为总体方差等于组间方差加上组内方差平均数。所以提高组间方差,降低组内方差可减小类型抽样平均误差 对于整群抽样则相反3、适应范围不同。类型抽样充分利用总体的已有信息,其前提就是对总体的结构事先有一定的认识,然后通过分类把总体中调查标志差异比较接近的单位归为一组,减少组内差异,再从各组中抽出样本,这样的样本就对总体有更大的代表性。整群抽样适用于无原始资料可利用的总体单位。是一种较为方便有效的抽样组织方式,有利于提高抽样的效率。但要注意整群抽样有时代表性不是很理想,抽样误差较大。在实际抽样中,通常要适当增加一些样本单位,以利于缩小抽样误差,提高抽样推断的准确度。,4-115,阶段抽样平均误差的控制,阶段抽样误差的控制必须落实到抽样的各个阶段。两阶段抽样误差控制,要落实为第一阶段的整群抽样的误差控制与第二阶段的类型抽样的误差控制两方面。两阶段抽样平均误差,既取决于组间方差也取决于组内平均方差,但组间方差是主要的因素。所以在组织两阶段抽样时在相同样本容量要求下,适当增加第一阶段的组数,比增加第二阶段的单位数,能更显著地提高抽样效果。,第四节 调查问卷设计,一、调查问卷的作用和结构 调查问卷是为了进行调查和统计用的一种表格,由于表格中 的内容是以提问题的方式表现的,通常称为调查问卷。不论采用伺 种调查方式,调查问卷都是不可缺少的。区别只是在于与调查人员填写问卷的面访相比,由被调查者自行填写式的问卷应当更为简明,更宜于填答,有关调查的说明和有关填表的说明应该更详细些,以保证被调查者在没有人指导的情况可以顺利完成问卷。调查问卷的主要作用是将研究人员所需要的信息转换成被调查者可以回答并且愿意回答的一系列问题。能否很好地实现这个 转换是调查问卷质量的关键。,4-116,表面上十分相似的提问方式可能会导致不同的信息。问卷若不能激发、鼓励被调查者参与,不能使被调查者的疲劳、厌烦减至最小,就会出现大量不完整答卷,甚至发生拒答情况。因此调查设计问卷是一件具有挑战性的工作。调查问卷的结构通常包括以下几个部分:说明词,填写要求,问卷正文及结尾。说明词是调查问卷的开头部分,有时也可以单独成为一封问卷的说明信。它的主要目的是对调查目的、意义和调查内容的说明。它的主要作用是引起被调查者的重视,激发他们的参与意识,争取得到他们的合作。,4-117,说明词一般包括这样几方面的具体内容:一 是调查的主办单位及调查员个人身份,这样有助于消除被调查者的疑虑;二是说明调查的目的和意义,要使被谓查者感到这项调查是非常重要的,他们的积极参与是一件十分有意义的事情,激他们的参与意识;最后,要表明替被调查者保守秘密,并表示真诚的感谢(或说明将赠送礼品)。信的语气应该是亲切、诚恳、礼貌,既交代清楚又不罗嗦。在整个调查问卷中,说明词的地位非常重要。大量的调查实践表明,凡拒绝合作的人大都是在开始接触的时候表示不愿意参加,而一旦答应了参与,中途退出的情况很少。因此,如果一开始的自我介绍(包括说明词,调查员的举止态度等)十分得体和诚恳,调查问卷的回收率将会增加,调查结果的可靠性和有效性也会增强。,4-118,填写要求是调查问卷中不可缺少的另一个构成部分。这部分内容的处理比较灵活,可以集中在一起,也可以分散到各有关问题前面,例如在容易出错的问题前面附加必要的指导语,也可以集中、分散兼而有之。填写要求的主要作用是帮助填写者正确地填答问卷。在自填式调查问卷中,填写要求就显得更为重要。问卷正文是调查问卷的主体部分,一般包括两部分内容,一部分是需要调查的问题和答案,问卷设计中的技术性问题多是就这一部分内容而言,后面还要专门讨论;另一部分是被调查者的背景材料,例如被调查者的性别、年龄、职业、家庭经济状况等。通常将背景材料放在后面。这是因为经过前面的接触,被调查者已适应了询问,态度也变得友善,4-119,友善起来,他们对调查者的信任感增加了,调查人员对背景状况的调查就相对容易。如果将有关背景的问题放在开头,往往容易引起被调查者的警惕和反感。当然,这种安排顺序也不是绝对的,需要根据具体情况处理。例如,在配额调查中,就需要把某些属于背景材料的鉴别问题放在问卷的开头。卷结尾的主要内容包括:与调查有关的问题的说明。例如,如果是自填式问