第7章抽样估计.ppt
第七章 抽样估计,1了解抽样推断的概念和特点,明确在哪些场合适合运用抽 样推断的方法;2理解抽样平均误差、抽样极限误差及概率度的概念和三者之间的相互关系,以及明确如何确定一定误差范围内的置信度;3理解抽样估计的优良标准是什么,掌握估计总体平均指标和成数指标的基本原理和基本方法;4掌握简单随机抽样、等距抽样、类型抽样、整群抽样等抽样组织方式的特点,以及各种组织形式的抽样平均误差计算方法及抽样推断方法。,学习目的和要求:,2023/11/7,第七章 抽样估计,2,第一节 抽样估计的一般问题,抽样估计是在抽样调查的基础上,利用样本的实际资料计算样本指标,并据以推算总体相应数量特征的一种统计分析方法。,一、抽样估计的意义,(一)抽样估计的概念,2023/11/7,第七章 抽样估计,3,统计分析的主要任务,就是要反映现象总体的数量特征。但在实际工作中,我们不可能、也没有必要每次都对总体的所有单位进行全面调查。在很多情况下,我们只需抽取总体的一部分单位作为样本,通过分析样本的实际资料,来估计和推断总体的数量特征,以达到对现象总体的认识。,抽样估计的现实意义,2023/11/7,4,第七章 抽样估计,1抽样推断是由部分推算整体的一种认识方法;2抽样推断是建立在随机取样的基础之上的;3抽样推断运用的是概率估计的方法;4抽样推断的误差是可以事先计算并加以控制的。,(二)抽样推断的特点,2023/11/7,5,第七章 抽样估计,(一)参数估计 虽然我们不知道总体的数量特征,但我们可以依据所获得的样本观察资料,对所研究对象总体的水平、结构、规模等数量特征进行估计,这种推断方法称为总体参数估计。(二)假设检验 由于我们对总体的变化情况不了解,不妨先对总体的状况作某种假设,然后根据抽样推断的原理,依据样本观察资料对所作假设进行检验,来判断这种假设的真伪,以决定我们行动的取舍,这种推断方法称为总体参数的假设检验。,二、抽样推断的内容,2023/11/7,6,第七章 抽样估计,(一)总体和样本 总体也称全及总体或母体,是指所要认识研究对象的全体。它是由所研究范围内具有某种共同性质的全体单位所组成的集合体。总体的单位数通常较大,甚至是无限的,一般用N表示全及总体的单位数。一个全及总体的指标数值是确定的、唯一的,所以称为参数。样本又称样本总体或子样,它是从全及总体中随机抽取出来的一部分单位组成的集合体,样本的单位数是有限的,一般用n表示样本总体的单位数。样本总体的指标数值是个随机变量,所以称为样本统计量或样本估计量。,三、有关抽样的基本概念,2023/11/7,7,第七章 抽样估计,总体平均数和总体方差为:,总体成数及方差为:,(二)总体参数和样本统计量,2023/11/7,8,第七章 抽样估计,样本统计量是用来估计总体参数的,因此和总体参数相对应,有样本平均数及方差、样本成数及方差。,样本成数及方差为:,样本平均数和方差为:,2023/11/7,9,第七章 抽样估计,样本容量是指一个样本包含的单位数。一个样本应包含多少单位较合适,这是抽样设计必须考虑的问题。样本容量的大小不但关系到抽样调查的效果,而且关系到抽样方法的应用。我们通常将单位数小于30的样本称为小样本,单位数等于或大于30的样本称为大样本。社会经济统计的抽样调查一般都采用大样本调查。样本个数又称样本可能数目,是指从一个总体可能抽取的样本个数。一个总体可以抽取多少个样本和样本容量以及抽样方法有关。从一个总体中能抽取多少个样本,则样本统计量就有多少种取值,从而形成了该统计量的分布。研究所有可能抽取的样本及其统计量的分布,是抽样推断的基础。,(三)样本容量和样本个数,2023/11/7,10,第七章 抽样估计,重复抽样也称回置抽样,它是指每次抽取一个样本登记后再将它放回总体中参加下一次抽取。也就是说每一个样本单位都有被重复抽取的可能。重复抽样的特点是:每次抽取样本是在完全相同的条件下进行的,总体中每个单位中选的机会在各次都完全相等。,(四)重复抽样和不重复抽样,2023/11/7,11,第七章 抽样估计,例如:总体有A、B、C共3个单位,要从中以重复抽样的方法抽取2个单位构成样本,则可能抽取的样本数目为Nn=32=9个,它们是:,从总体N个单位中,用重复抽样的方法,随机抽取一个容量为n的样本,共可抽取Nn个样本。,AA、AB、AC BA、BB、BC CA、CB、CC,2023/11/7,12,第七章 抽样估计,不重复抽样也称不回置抽样,它是指每次抽取一个样本登记后不再放回总体中参加下一次抽取。也就是说每一个样本单位只有一次被抽取的可能。不重复抽样时,每个样本的抽取不独立的,因为每个样本在抽取前总体单位数不一样。在实际操作中,大多数抽样都是不重复抽样。,不重复抽样的特点:,2023/11/7,13,第七章 抽样估计,例如:总体有3个单位A、B、C,要从中以不重复抽样的方法抽取2个单位构成样本,则全部可能抽取的样本数目为32=6个,它们是:AB、AC、BA、BC、CA、CB,从总体N个单位中,采用不重复抽样的方法,随机抽取一个容量为n的样本,则全部可能抽取的样本数目为:N(N1)(N2)(Nn+1)个,2023/11/7,第七章 抽样估计,14,第二节 抽样误差,抽样误差是指由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全及指标的绝对离差。抽样误差不同于登记误差:登记误差是人为差错所引起的误差,所有统计调查都可能发生。抽样误差不是人为失误所引起的,而是随机抽样所特有的误差。,一、抽样误差的概念,2023/11/7,第七章 抽样估计,15,抽样误差是一种代表性误差。用样本统计量来代表总体参数,必然会有误差。因此,抽样误差是已遵循了随机原则,由偶然因素引起的误差,它是抽样推断所固有误差,是无法消除的,但能事先计算并加以控制。有时抽样过程中可能会产生另一种代表性误差,即系统性误差。系统性误差是由于违反了随机原则而产生的数据偏大或偏小的情况,因此也叫做系统偏差。系统偏差不是抽样误差,它是人为原因产生的误差,是可以采取措施避免或加以消除的。,抽样误差的特点:,2023/11/7,第七章 抽样估计,16,1.总体各单位标志值的差异程度;2.样本单位数;3.抽样方法;4.抽样组织方式。,影响抽样误差大小的因素,2023/11/7,第七章 抽样估计,17,抽样平均误差是反映抽样误差一般水平的指标,它是所有可能抽取的样本平均数或成数的标准差。由于所有样本平均数的平均数等于总体平均数,所有样本成数的平均数等于总体成数,因此,抽样平均数或成数的标准差反映了抽样平均数或成数与总体平均数或成数的平均离差程度。,二、抽样平均误差,2023/11/7,第七章 抽样估计,18,(一)重复抽样条件下平均数的抽样平均误差,定义公式为:,由定义公式导出的计算公式为:,2023/11/7,第七章 抽样估计,19,重复抽样平均误差计算公式的推导:,设总体变量为X1,X2,XN,样本变量为x1,x2,xn,根据平均数的定义和它的数学性质,有:,在重复抽样条件下,由于x1,x2,xn是相互独立的随机变量,每一个变量在总体中都有N种选择,中选机会相等,概率都是1/N。即:,2023/11/7,第七章 抽样估计,20,根据方差的定义和它的数学性质,不重复抽样平均误差的计算公式可按其定义推导如下:,2023/11/7,第七章 抽样估计,21,所以平均数的抽样平均误差为:,其中:,式中:,表示平均数的抽样平均误差;,表示总体标准差;,表示样本容量。,2023/11/7,第七章 抽样估计,22,重复抽样平均误差计算公式的特性:,从抽样平均误差的计算公式可以看出:1.抽样平均误差的大小和总体标准差成正比,而与样本容量的平方根成反比变化;2.抽样平均误差比总体标准差小,仅为总体标准差的1/,。,2023/11/7,第七章 抽样估计,23,(二)不重复抽样平均数的抽样平均误差,定义公式为:,定义公式导出的计算公式:,当N较大时,有:,2023/11/7,第七章 抽样估计,24,不重复抽样平均误差计算公式的推导:,设总体变量为X1,X2,XN,样本变量为x1,x2,xn,根据平均数的定义和它的数学性质,有:,在不重复抽样条件下,由于x1,x2,xn不是相互独立的,其中x1 是抽取的第1个变量,它可以在x1,x2,xn 中选择,而总体中每个单位中选的概率都为1/N,因此:,2023/11/7,第七章 抽样估计,25,x2 是抽取的第2个变量,它可以在N1个总体单位中选择,而N1个总体单位的组合可以有N种选择,所以总体中每个单位中选的概率还是都为1/N,即:,依此类推:,2023/11/7,第七章 抽样估计,26,所以有:,按照抽样平均误差的定义:,2023/11/7,第七章 抽样估计,27,由于在不重复抽样条件下,样本变量x不是互相独立的,因此共有n(n1)项的,和,的讨论:,式中:k、l=1,2,N。,2023/11/7,第七章 抽样估计,28,又由于:,所以:,可得:,2023/11/7,第七章 抽样估计,29,(三)成数的抽样平均误差,成数的方差为:,在重复抽样条件下,成数的抽样平均误差为:,或,在不重复抽样条件下,成数的抽样平均误差为:,2023/11/7,第七章 抽样估计,30,例71 假设总体有3个单位A、B、C,它们的某标志值分别为3、5、7,样本容量为2个单位,试计算在重复抽样条件下和不重复抽样条件下的抽样平均误差。,重复抽样,不重复抽样,样本,样本,合计,合计,AAABACBABBBCCACBCC,ABACBABCCACB,3、33、53、75、35、55、77、37、57、7,3、53、75、3 5、77、37、5,345456567,4 5 4 6 5 6,4 1 0 1 0 1 0 1 412,1 0 1 1 0 1 4,本例N=3,n=2,易知,总体变量的平均数为5,样本平均数的平均也等于5,即:,重复抽样与不重复抽样条件下的样本组合及计算表,2023/11/7,第七章 抽样估计,31,根据抽样平均误差的定义公式,重复抽样时有,根据抽样平均误差的计算公式,重复抽样时有:,两种方法计算结果是一样的。,2023/11/7,第七章 抽样估计,32,不重复抽样时根据抽样平均误差的定义公式,有,不重复抽样时根据抽样平均误差的计算公式,有:,两种方法计算结果是一样的。,2023/11/7,第七章 抽样估计,33,例72 某大学调查学生某公共基础课程的学习情况,现采用不重复抽样的方法抽取了5%的学生组成一个200人的样本。对样本的统计结果为:平均成绩为75分,标准差为17分;及格率为90%。试计算平均成绩和及格率的抽样平均误差。,本例采用样本方差代替总体方差,现分别计算如下:,(分),2023/11/7,第七章 抽样估计,34,第三节 参数估计的方法,一、优良估计的标准(一)无偏性 无偏性标准就是要求在总体中所有可能抽取的样本统计量的平均数应等于被估计的总体参数。(二)一致性 一致性标准就是要求当样本容量充分大时,样本统计量也充分靠近总体参数。(三)有效性 有效性标准就是要求作为优良估计量的方差应该比其他估计量的方差小。,2023/11/7,第七章 抽样估计,35,二、总体对数的点估计,点估计又称定值估计,它是直接以样本统计量作为相应总体参数的估计量。例如,用样本平均数的实际值直接估计总体平均数,用样本成数的实际值直接估计总体成数等。在抽样调查中,我们所抽取样本的结构与总体结构应该是一致的,样本统计量的计算方法与总体参数的计算方法是相同的,只是总体参数未知,要用样本统计量来估计它。无论从总体中抽取一个什么样的样本,用它的统计量来估计总体参数必然会有误差。但只要这个统计量符合无偏性、一致性和有效性三个标准,我们仍然可以认为它是优良估计。,2023/11/7,第七章 抽样估计,36,例73 某地对股民的资金帐户余额及盈亏情况进行调查,现按随机原则抽取了一个100人的样本,对样本的调查结果是:资金帐户平均余额为10万元,盈利股民比重为30%。试对该地全部股民的资金帐户平均余额和盈利股民比重进行点估计。,进行点估计就是直接用样本统计量估计总体参数:(万元)即该地全部股民的资金帐户平均余额为10万元,即盈利股民比重为30%。点估计的优点:在于它能提供对于总体参数一个确定的估计值。点估计的不足:是这个确定的估计值有多大的误差是未知的。,2023/11/7,第七章 抽样估计,37,我们沿用例73的资料。假如我们不是直接用样本统计量资金帐户平均余额10万元来估计总体参数,而是给定一个区间,采用10万元左右这么一个幅度来估计该地全部股民的资金帐户平均余额,就可以计算出相应的可靠性程度。,三、总体参数的区间估计,(一)允许误差范围与估计区间,2023/11/7,第七章 抽样估计,38,例如,我们在10万元的左右都放宽2万元,即允许误差范围为 2万元,从而可以形成一个估计区间812万元,如下图所示:,10,8,12,显然,平均数的抽样极限误差 为:,2023/11/7,第七章 抽样估计,39,估计区间的上限和下限分别为:,综合起来,总体平均数的估计区间为:,显然,本例有:,8(万元)12(万元),2023/11/7,第七章 抽样估计,40,对于成数,根据例73的资料,若不是用样本统计量盈利股民比重30%来直接估计该地全部股民的盈利股民比重,而是给定一个允许误差范围2%。如估计区间为28%32%,如下图所示:,则成数的抽样极限误差可表达为:,估计区间为:,本例有:,28%,32%,30%,28%,32%,2023/11/7,第七章 抽样估计,41,引例:若总体有3个单位A、B、C,其变量值分别为3、5、7,样本容量为2,所有样本平均数的分布状况为:,样本平均数,3 4 5 6 7,1 2 3 2 1,次数,概率,由概率的完备性原理,有:,(二)区间估计的基本公式,样本平均数的分布,2023/11/7,第七章 抽样估计,42,1.对称性,近似正态分布;2.样本平均数的分布中心就是总体平均数。,所有样本平均数的分布特点:,本例有:,即:,2023/11/7,第七章 抽样估计,43,现在我们引申出正态分布理论。在大样本的条件下,样本平均数的分布接近于正态分布:,正态概率分布图,2023/11/7,第七章 抽样估计,44,例如:分布中心两侧各一个单位的标准差所限定的区间,对应的概率为68.27%;分布中心两侧各二个单位的标准差所限定的区间,对应的概率为95.45%;分布中心两侧各三个单位的标准差所限定的区间,对应的概率为99.73%。可表达为:,式中:F(t)表示估计区间的概率;t 表示概率度。,根据正态分布理论:无论一组变量的平均数和标准差大小如何,分布中心两侧以标准差为单位度量的区间与这一区间的概率是一一对应的。,2023/11/7,第七章 抽样估计,45,概率度又是一个确定估计区间的度量值。抽样平均误差 是样本平均数的标准差,以 为单位,若给定一个区间,则可以表达为有 t 个 那么宽。,概率度与区间估计的基本公式,概率度是测量估计可靠性程度的一个参数。概率度 t 的大小与概率的大小是一一对应的,可通过给定的 t 值,查阅“正态分布概率表”,查得相应的概率。,由此可得总体平均数和成数区间估计的基本公式:,例如,在总体中随机抽到了某个样本,其平均数为,若它落在分布中心 右侧2个 宽度的位置,则其对应的概率为47.725%,即:,2023/11/7,第七章 抽样估计,46,虽然分布中心是总体平均数,但其数值大小是未知的。因此,该样本平均数也有可能落在分布中心左侧2个 宽度的位置,则其对应的概率也为47.725%,即:,2023/11/7,第七章 抽样估计,47,一般可表达为:,考虑到对称性,综合有:,2023/11/7,第七章 抽样估计,48,(三)区间估计的方法,总体参数区间估计的三要素包括样本统计量、抽样允许误差范围,以及概率保证程度(置信度)。样本统计量由抽取样本获得;抽样误差范围决定了估计的准确性;概率保证程度则决定了估计的可靠性。在已知样本统计量的情况下,抽样估计时只能对其中的一个要素提出要求。如果要对两个要素都要提出一定的要求,只能通过增加样本容量来解决。,1.区间估计应具备的三要素,2023/11/7,第七章 抽样估计,49,(1)在一定的样本条件下,给定概率保证程度,计算抽样极限误差;(2)在一定的样本条件下,给定抽样极限误差,计算概率保证程度;(3)给定抽样极限误差和概率保证程度,推算出样本容量。,总体参数区间估计的方法,2023/11/7,第七章 抽样估计,50,2.给定概率保证程度求抽样极限误差,给定概率保证程度求抽样极限误差,就是根据区间估计的基本公式:在已知 t、的条件下,求。下面我们通过举例来说明具体计算步骤。,2023/11/7,第七章 抽样估计,51,例74 某镇对居民人均月生活费支出进行抽样调查,在全镇10万户居民中用不重复抽样方法随机抽取了一个630户的样本,抽查资料如下表所列,试以95%(t=1.96)的置信度对该地人均月生活费支出进行区间估计。,某地居民人均生活费支出抽查资料,人均月生活费支出(元),组中值(元)x,户数(户)f,x f,300以下300400400500500600600700700800800900900以上,250350450550650750850950,合计,12 55 92 117 134 106 85 29,630,1 696 782.734 190 590.852 850 763.60 676 325.63 76 991.161 629 067.464 263 817.683 043 740.27,3 000 19 250 41 400 64 350 87 100 79 500 72 250 27 550,394 400,18 428 079.38,2023/11/7,第七章 抽样估计,52,第一步,计算样本平均数和方差:,(元),第二步,计算抽样平均误差:,2023/11/7,第七章 抽样估计,53,第三步,计算抽样极限误差:,(元),第四步,计算估计区间的限和下限:,即在95%的概率保证程度下,估计该地居民人均月生活费支出在612.68639.38元之间。,估计精度=1误差率,(元),(元),2023/11/7,第七章 抽样估计,54,第一步,计算成数和方差:,第二步,计算抽样平均误差:,例75 根据例74的资料,试以95%(t=1.96)的可靠性程度,对该地居民人均月生活费支出在500元以下的户数比重进行区间估计。,2023/11/7,第七章 抽样估计,55,第三步,计算抽样极限误差:,第四步,计算估计区间的限和下限:,即在95%的概率保证程度下,该地居民人均月生活费支出在500元以下户数比重的估计区间为21.85%28.63%。,2023/11/7,第七章 抽样估计,56,3.给定抽样极限误差求概率保证程度,给定抽样极限误差求概率保证程度,就是根据区间估计的基本公式:在已知、的条件下,求 t,然后根据t 查表得概率保证程度。下面我们通过举例来说明具体计算步骤。,2023/11/7,第七章 抽样估计,57,例76 根据例74的资料,若允许误差范围为16元,试对该地居民人均月生活费支出进行区间估计,并通过计算概率度和查阅概率表,求出可靠性程度。,第三步,计算估计区间的限和下限:,(元),(元),第二步,计算抽样平均误差,第一步,计算样本平均数,(见例74),(见例74),2023/11/7,第七章 抽样估计,58,第四步,计算概率度:,即该地居民人均月生活费支出在610.03642.03元之间的可靠性程度为98.12%。,查概率表得置信度为98.12%。,2023/11/7,第七章 抽样估计,59,例77 根据例74和例75的资料,若允许误差范围为5%,试对该地居民人均月生活费支出在500元以下的户数比重进行区间估计,并计算和查表确定可靠性程度。,第三步,计算估计区间的上限和下限:,第二步,抽样平均误差,第一步,计算样本成数,(见例74),(见例74),2023/11/7,第七章 抽样估计,60,第四步,计算概率度:,即该地居民人均月生活费支出在500元以下户数比重的估计区间为20.24%30.24%,其概率保证程度为99.61%。,查概率表得置信度为99.61%。,2023/11/7,第七章 抽样估计,61,4.给定抽样极限误差和概率保证程度推算 必要的样本容量,给定抽样极限误差和概率保证程度推算必要的样本容量,就是根据区间估计的基本公式:在已知、t 的条件下,求 的计算公式中所包含的n。,2023/11/7,第七章 抽样估计,62,在重复抽样下,抽样平均数区间估计的基本公式可以写成:,则必要的样本容量为:,2023/11/7,第七章 抽样估计,63,在不重复抽样下,抽样平均数区间估计的基本公式为:,则必要的样本容量为:,2023/11/7,第七章 抽样估计,64,同理,重复抽样和不重复抽样的成数样本必要容量分别为:,2023/11/7,第七章 抽样估计,65,确定样本必要容量的注意点,第一,如何确定方差。因为总体方差是未知的,解决的方法之一是采用总体方差的历史数据或经验数据,当有多个方差可供选择时,应选择较大的方差;方法之二是用试验性样本的方差来替代。第二,如何确定样本容量。当根据任务要求需要同时估计总体的平均数和成数时,应分别计算估计平均数的必要样本容量和估计成数的必要样本容量,并选择较大者作为正式样本容量,以确保将抽样误差控制在允许的范围内。,2023/11/7,第七章 抽样估计,66,例78 某机械加工厂对一批零件进行抽检,零件数量为13 752个,根据历史资料,这种零件平均长度的标准差在1220毫米之间,一等品率在92%96%之间。现用不重复抽样的方法,要求在95%(t=1.96)的可靠性程度保证下,零件平均长度的误差范围不超过3毫米,一等品率的误差范围不超过4.7%,求样本必要容量。,确定样本必要容量举例:,估计零件平均长度的样本必要容量计算如下:,标准差采用历史资料较大者20毫米。,2023/11/7,第七章 抽样估计,67,因0.920.08 0.960.04,方差应选择前者,最后,确定正式样本容量时,应选择169个和127个中较大者169个,当然还可以根据需要进行适当调整。,估计零件一等品率的样本必要容量计算如下:,2023/11/7,第七章 抽样估计,68,第四节 抽样组织设计,一、抽样组织设计概述,在抽样设计中,我们首先要保证随机原则的实现。随机取样是抽样推断的前提,违反了随机原则,抽样推断的理论和方法也就失去了意义。从理论上说,随机原则就是要保证总体每一个单位都有同等的中选机会,或样本的抽选概率是已知的。,(一)抽样随机原则,2023/11/7,第七章 抽样估计,69,第一,合适的抽样框。抽样框必须具备可实施的条件,一个合适的抽样框必须能覆盖总体所有的单位,还要考虑抽样单位与总体单位的对应问题。第二,取样的实施问题。在总体单位数很大甚至无限大的情况下,要保证总体中每一个单位都有均等的中选机会绝非易事。在抽样设计时,要考虑将总体各单位加以分类、排队,以尽量保证随机原则的实现。,保证随机原则的实现的注意点,2023/11/7,第七章 抽样估计,70,样本容量的大小和结构直接反映样本的代表性好坏。样本的容量的大小:取决于对抽样推断准确性、可靠性的要求。在抽样设计时,应重视研究现象的差异,允许误差范围的要求与样本容量的关系,作出适当的选择。样本容量的结构:例如,某乡镇要抽取100亩播种面积,可以先抽5个村,每个村再抽20亩,也可以先抽10个村,每个村再抽10亩等。样本容量的结构不同,所产生的效果也不同。抽样设计应考虑通过改善和调整样本结构来提高抽样效果。,(二)样本容量的结构,2023/11/7,第七章 抽样估计,71,抽样组织方式包括:简单随机抽样、等距抽样、类型抽样和整群抽样等。不同的抽样组织方式会产生不同的抽样效果。同一种抽样组织方式,由于采用的分类标志不同,也会产生不同的效果。,(三)抽样组织方式,2023/11/7,第七章 抽样估计,72,二、常用的抽样组织方式,简单随机抽样是按随机原则直接从总体N个单位中抽取n个单位作为样本。不论是重复抽样还是不重复抽样,都要保证每个单位在抽选中都有相等的中选机会。由于这种抽样组织方式除了设计好抽样框外,不需要其他信息,所以也被称为单纯随机抽样。,(一)简单随机抽样,2023/11/7,第七章 抽样估计,73,简单随机抽样是最基本也是最简单的抽样组织方式,它适合于分布较为均匀的总体。在抽样之前,我们应对总体各单位加以编号,然后用抽签的方法或根据随机数字表来抽取必要的样本单位数。简单随机抽样最能体现抽样的随机原则,所以抽样平均误差的计算方法是以它为基础的,各种抽样组织方式抽样误差的比较也是以它为基础的。,简单随机抽样的特点:,2023/11/7,第七章 抽样估计,74,等距抽样也称机械抽样或系统抽样,它是先根据某一标志对总体各单位进行排队,然后按一定顺序和间隔来抽取样本单位的一种抽样组织方式。由于这种抽样是在总体各单位排序的基础上,再按一定规则和一定间隔抽取样本,这样可以保证所取得的样本单位比较均匀地分布在总体的各个部分,所以有较高的代表性。,(二)等距抽样,等距抽样一般都是不重复抽样。,2023/11/7,第七章 抽样估计,75,排序标志可以是无关标志,也可以是有关标志。所谓无关标志,是指和单位标志值的大小无关或不起主要作用的标志。所谓有关标志,就是作为排序的标志与单位标志值的大小有密切的关系。,等距抽样的操作程序:,首先要将总体单位排序:,2023/11/7,第七章 抽样估计,76,按有关标志排队,将总体加以n等分之后,在每一间隔抽取一个样本单位的方法有两种:(1)半距中点取样。即抽取每一间隔内处于中间位置的单位作为样本单位。(2)对称等距抽样。即将总体按有关标志排序后,在第一个间隔内随机抽取第1个样本单位,假如第1个样本单位在第一个间隔内是处在第k个位置,则在第二个间隔内抽取倒数第k个单位作为样本单位,在第三个间隔内再抽取正数第k个单位作为样本单位,以此类推,共抽取n个单位构成样本。对称等距抽样能从总体上把握样本的代表性。,按有关标志排序的抽样方法,2023/11/7,第七章 抽样估计,77,总体按无关标志排序后,若要抽取n个单位作为样本,则可将总体等距划分成n个间隔,在第一个间隔内根据随机原则抽取第一个样本单位,然后以第一个样本单位算起,等距地在每个间隔中抽取一个单位,共可抽取n个单位构成样本。这种方法的随机原则主要体现在第一个样本单位的抽选上,当第一个单位随机确定后,其余各个单位的位置也就确定了。按无关标志排序的等距抽样类似于简单随机抽样。,按无关标志排序的抽样方法,2023/11/7,第七章 抽样估计,78,例79 某厂对流水线上生产的某产品进行质量抽检,每隔半小时抽取1个产品,共抽取了300个产品构成一个样本。测得样本产品的一等品率为93%,试以95%(t=1.96)的可靠性程度对该流水线生产的产品一等品率进行区间估计。,这是按时间排序的等距抽样。流水线上生产的产品数可视为无穷大,因此1n/N可忽略不计。,现计算如下:,2023/11/7,第七章 抽样估计,79,即在95%的概率保证下,该流水线生产的产品一等品率在90.12%95.88%之间。,抽样极限误差及上限、下限计算如下:,2023/11/7,第七章 抽样估计,80,类型抽样又称分层抽样,它是将总体各单位按主要标志进行分组,然后再从各组中按随机原则抽取一定比例的单位构成样本。类型抽样的特点:是把分类法和随机原则结合起来。由于它是按一定比例在每一组中抽样,所以不存在组间误差。,(三)类型抽样,2023/11/7,第七章 抽样估计,81,由于类型抽样只存在组内误差,不存在组间误差,我们在分组时应尽量将变异较小的同类单位归入一组,通过扩大组间差异来达到缩小组内差异的目的。类型抽样分组时,为了划分各种类型,各组单位数可多可少,但各组的抽样比例最好保持相同,以避免各组抽样比例不同而引起的误差。类型抽样的抽样误差一般小于简单随机抽样的误差。,类型抽样操作上的注意点:,2023/11/7,第七章 抽样估计,82,不重复抽样时抽样平均误差为:,类型抽样的抽样平均误差的计算:,样本平均数和组内方差的平均数一般应加权平均:,重复抽样时抽样平均误差为:,2023/11/7,第七章 抽样估计,83,例710 某企业有三个车间生产某产品,现分别从三个车间各抽取5%的产量进行检验,得检验结果如表74所示,试以90%(t=1.64)的可靠性程度,对该产品的平均每包重量和平均优质品率进行区间估计。,某企业三个车间产品样本资料,甲乙丙,合计,车间,样本单位数(包),平均重量(千克),标准差(千克),优质品率(%),21341570,61.059.460.2,1.10.81.0,87.985.691.4,产品平均每包重量的区间估计可计算分析如下:,(包),本例,2023/11/7,第七章 抽样估计,84,(千克),(千克),2023/11/7,第七章 抽样估计,85,即在90%的可靠性程度保证下,该产品的平均每包重量为59.8760.23千克。,(千克),上限,下限,(千克),根据计算结果,可对三个车间生产的所有产品作出估计:,(千克),2023/11/7,第七章 抽样估计,86,产品优质品率的区间估计计算分析如下:,2023/11/7,第七章 抽样估计,87,上限,下限,即在90%的可靠性程度保证下,该产品的平均优质品率在81.23%93.83%之间。,2023/11/7,第七章 抽样估计,88,整群抽样也称整组抽样,它是将总体各单位划分成若干群,然后从中随机抽取部分群,对选中群的所有单位进行全面调查的抽样组织方式。整群抽样是对中选的群进行全面调查,如果想象各群浓缩成一个单位,那么整群抽样实质上是以各群代替各单位之后的简单随机抽样。,(四)整群抽样,2023/11/7,第七章 抽样估计,89,整群抽样只存在群间方差,不存在群内方差。整群抽样在分组时应尽量扩大群内的差异程度,以达到缩小群间方差的目的。整群抽样的好处:组织工作方便,确定一群便可以调查许多单位。整群抽样的缺点:由于抽样单位比较集中,限制了样本在总体分配的均匀性,所以抽样误差较大。通常采用增加一些群数的办法,以减少抽样误差,提高估计的准确性。,整群抽样的特点:,2023/11/7,第七章 抽样估计,90,假设样本各群单位数相同。将总体单位数N划分成R群,每群包括M个单位。再从R群中抽取r群构成一个样本,则可计算如下:,由于n=M r,r比n小得多,所以在计算样本的群间方差时要减少一个自由度,即:,整群抽样的计算公式:,2023/11/7,第七章 抽样估计,91,整群抽样为不重复抽样。在计算抽样平均误差时,必须用总体群数R来替代总体单位数N,用样本群数r来替代样本单位数n。,计算公式为:,抽样平均误差的计算说明如下:,2023/11/7,第七章 抽样估计,92,总体成数估计时相关计算公式为:,成数的抽样平均误差为:,2023/11/7,第七章 抽样估计,93,例711 某乡镇从全乡32个自然村中抽出9个自然村,调查各村人均纯收入,相关资料见表75。试以90%(t=1.64)的置信度对全乡32个自然村的人均纯收入进行区间估计。假设各自然村的规模大致相同。,某乡镇9个样本自然村人均纯收入资料,合计,自然村编号,人均纯收入(元),123456789,5 200 6 500 4 800 6 900 5 500 5 000 4 900 3 700 6 100,40 000 1 210 000 360 000 2 250 000 10 000 160 000 250 000 2 890 000 490 000,48 600,7 660 000,本例 R=32,r=9,2023/11/7,第七章 抽样估计,94,(元),(元),(元),2023/11/7,第七章 抽样估计,95,4 860.76(元),(元),上限,4 939.24(元),(元),下限,(元),2023/11/7,第七章 抽样估计,96,例712 某流水线24小时连续生产某产品,生产节拍为每分钟生产2个产品。现从24小时内每隔3小时抽取60个产品作为一组,共抽取了8组产品构成一个样本,样本检验资料如表76所示。试以95%(t=1.96)的可靠性程度对流水线上24小时内所生产的产品一等品率进行区间估计。,某流水线产品质量检验整群抽样样本资料,合计,样本组序号,各组一等品率(%),12345678,75 95 87 80 72 90 70 93,60.0625150.0625 18.0625 7.5625115.5625 52.5625162.5625105.0625,671.5000,2023/11/7,第七章 抽样估计,97,本例以60个产品为一群,生产60个产品需要的时间为30分钟(60/2=30),24小时可以划分的群数R为48,相关计算为:,2023/11/7,第七章 抽样估计,98,=82.75%-6.25%=76.5%,上限,1.963.19%=6.25%,=82.75%+6.25%=89.1%,76.5%,89.1%,下限,2023/11/7,第七章 抽样估计,99,三、抽样方案的检查,抽样方案的设计,有时由于所使用的历史资料已过时,与现实不符;有时由于考虑不周,在设计时可能会发生失误。这些都不能保证抽样数据有充分的代表性,因此在设计方案实施之前必须经过检查,用试点的结果来验证设计方案的准确性和可行性,然后才能正式推广使用。抽样方案的检查主要有准确性检查和代表性检查两方面。,2023/11/7,第七章 抽样估计,100,所谓准确性检查,就是以方案所要求的允许误差范围为标准,用已掌握的资料检查其在一定概率保证下,实际的极限误差是否超过方案所允许的误差范围。如果检查结果表明实际极限误差没有超过方案所允许的误差范围,则方案可以付之实施。如果检查结果表明实际极限误差已经超过了方案所允许的误差范围,就要增加样本容量,对方案作必要的修正,直到符合准确性要求为止。,(一)准确性检查,2023/11/7,第七章 抽样估计,101,(二)代表性检查,所谓代表性检查,就是将方案中的样本指标与过去已掌握的总体同一指标进行对比,视其比率是否超过规定。如规定农产品的比率不超过2%,居民收入不超过3%等。由于总体情况在不断地变化,每次抽样调查必须对样本资料进行准确性检查和代表性检查,以保证抽样资料的准确和可靠,提高抽样调查的效果。,