第7章 抽样推断.ppt
《第7章 抽样推断.ppt》由会员分享,可在线阅读,更多相关《第7章 抽样推断.ppt(189页珍藏版)》请在课桌文档上搜索。
1、第七章 抽样推断,不象其他科学,统计从来不打算使自己完美无缺,统计意味着你永远不需要确定无疑。Gudmund R.Iversen,统计名言,学习内容,抽样推断概述抽样推断的理论依据抽样分布参数估计 必要样本数目的确定,第一节 抽样推断概述,学习目标,抽样推断概念(理解)抽样推断的特点(理解)抽样推断的应用(理解)几个基本概念(掌握),一、抽样推断的概念,抽样推断是建立在概率论基础上的一种科学的统计分析方法。它是指按照随机原则,从全及总体中抽取一部分单位作为样本进行实际调查,然后根据调查所得的样本数据,对总体的特征值做出具有一定可靠程度的推断,以反映总体的数量特征或数量关系。,统计推断,全及总体
2、指标:参数(未知量),样本总体指标:统计量(已知量),按随机原则抽取样本运用概率论的理论和方法,用样本指标来推断总体指标。推断的误差可以事先计算和控制。,二、抽样推断的特点,每个单位都有相同的被抽中的机会,哪个单位被抽中,由随机因素确定,完全排除抽样者的个人主观意志,无法或很难进行全面调查而又需要了解其全面情况时某些可以采用全面调查的社会经济现象,也可采用抽样推断可用于生产过程的质量控制,三、抽样推断的应用,全及总体与样本总体全及指标与样本指标抽样方法样本的可能数目抽样组织方式,四、抽样推断的几个基本概念,(一)全及总体和样本总体,1.全及总体简称为总体,是指所要研究的对象的全体。总体单位数用
3、N表示。2.样本总体简称为样本,是指从全及总体中按随机原则抽取出来的那部分单位形成的整体。样本总体所包含的样本单位数称为样本容量,用n表示。,(二)总体指标和样本指标,1.总体指标总体指标是用来描述全及总体数量特征的统计指标,也可以称为总体参数。由于全及总体是唯一确定的,所以根据全及总体计算的总体指标也是确定的量。我们所要估计的总体指标主要有总体均值、总体比例和总体方差。,(二)总体指标和样本指标,总体均值:未分组分 组总体比例:总体方差:未分组分 组,(二)总体指标和样本指标,2.样本指标样本指标是用来描述样本总体数量特征的统计指标,也称统计量。从一个全及总体中可以随机抽取很多个样本,所以根
4、据样本计算的样本指标是随机变量。在抽样调查中,经常采用的样本指标主要有样本均值、样本比例和样本方差。,(二)总体指标和样本指标,样本均值:未分组 分 组样本比例:样本方差:未分组分 组,重复抽样和不重复抽样,考虑顺序的抽样和不考虑顺序的抽样,(三)抽样方法,从总体N个单位中随机抽取一个容量为n的样本,每次抽取一个单位,把结果登记后再放回到总体中,重新参加下一次的抽取.,抽出个体,登记特征,放回总体,继续抽取,抽样方法重复抽样,从总体N个单位中随机抽取一个容量为n的样本,每次抽取一个单位,把结果登记后不再放回到总体参加下一次的抽取.,抽出个体,登记特征,继续抽取,抽样方法不重复抽样,从总体N个单
5、位中抽取n个单位构成样本,不但考虑样本各单位成分的不同,而且还要考虑样本各单位的中选顺序.,即中选成分相同但中选顺序不同的视为不同样本,抽样方法考虑顺序的抽样,从总体N个单位中抽取n个单位构成样本,只考虑样本各单位成分的不同,不管样本各单位的中选顺序.,即中选成分相同但中选顺序不同的视为同一样本,抽样方法不考虑顺序的抽样,按照一定的抽样方法和组织方式,从总体N中抽取n个单位构成样本,一共可以抽出的不同样本的数量,一般用M表示.,(四)样本可能数目,考虑顺序的不重复抽样考虑顺序的重复抽样不考虑顺序的不重复抽样不考虑顺序的重复抽样,简单随机抽样类型抽样整群抽样等距抽样多阶段抽样,(五)抽样组织方式
6、,抽选样本的方法,直接抽选法抽签法随机数码表法,抽样的组织方式,简单随机抽样,简单随机抽样也叫纯随机抽样。它是按照随机原则直接从总体N个单位中抽取n个单位作为样本,然后通过对样本单位的调查观测,计算出样本指标,据以对相应的总体指标作出推断,。,设总体由N个单位构成,把总体划分为K层(组),使,然后从每类中随机抽取个 单位,构成容量为n的样本,使得,抽样的组织方式,分层抽样,可以提高样本的代表性可以缩小总体变异程度对抽样误差的影响,只受组内方差影响,不受组间方差影响.,抽样的组织方式,分层抽样,抽样方法,等比例类型抽样,不等比例抽样,先将总体各单位按某一标志排队,然后按固定的顺序和间隔来抽取调查
7、单位的一种组织方式.,抽样的组织方式,等距抽样,从12个中抽取3个,按有关标志排队等距抽样,按无关标志排队等距抽样,抽样的组织方式,等距抽样,整群抽样是将总体划分为由总体单位所组成的若干个群,然后,以群为单位,从总体中抽取若干个群作为样本,而对中选群内的所有单位进行全面调查的调查方式。,抽样的组织方式,整群抽样,比较方便和节约费用。由于影响了样本单位在总体中的均匀分布误差较其他方式大,概念:把抽样过程分成若干阶段来完成。抽样时先抽总体中范围较大的单位,再从抽中的范围大的单位中抽取范围小的单位,逐次类推,直到最后抽到样本单位。例如:我们要对全国城市居民的收入状况进行调查,可以先抽省,再从抽中的省
8、中抽市,从抽中的市中抽居民区,最后从抽中的居民区中抽取居民,整个抽样过程分成了四个阶段。,多阶段抽样,抽样的组织方式,同步训练,1.质检部门从某企业一天生产的手机中随机抽取20部进行检查,推断该批手机的合格率。这项研究的总体是 A.20部手机 B.一天生产的全部手机 C.20部手机中合格的手机 D.一天生产的手机中合格的手机。正确答案是(B),同步训练,2.一所大学从全校学生中随机抽取300人作为样本进行调查,其中80%的人回答他们的月生活费支出在500元以上。这里的300人是 A.总体 B.样本 C.变量 D.统计量正确答案是(B),同步训练,3.一项调查表明,在所抽取的2000个消费者中,
9、他们每月在网上购物的平均花费是200元,这项调查的样本是 A.2000个消费者 B.所有在网上购物的消费者 C.所有在网上购物的消费者的网上购物的平均花费金额 D.2000个消费者的网上购物的平均花费金额正确答案是(A),同步训练,4.最近发表的一项调查表明,“汽车消费税率调整后,消费者购买大排量汽车的比例显著下降”。这一结论属于 A.对样本的描述 B.对样本的推断 C.对总体的描述 D.对总体的推断正确答案是(D),同步训练,5.到商场购物停车变得越来越困难,管理人员希望掌握顾客找到停车位的平均时间。为此,某个管理人员跟踪了50名顾客并记录下他们找到车位的时间。这里,管理人员感兴趣的总体是(
10、)A 管理人员跟踪过的50名顾客 B上午在商场停车的顾客 C在商场停车的所有顾客 D到商场购物的所有顾客正确答案是(C),同步训练,6.为了估计全国高中学生的平均身高,从20个城市选取了100所中学进行调查。在该项研究中,样本是()A 100所中学 B 20个城市 C 全国的高中学生 D 100所中学的高中学生正确答案是(D),同步训练,7.某大学的一位研究人员希望估计该大学本科生平均每月的生活费支出,为此,他调查了200名学生,发现他们每月平均生活费支出是500元。该研究人员感兴趣的总体是()A 该大学的所有学生 B该大学所有大学生的总生活费支出 C该大学所有的在校本科生 D 所调查的200
11、名学生正确答案是(C),同步训练,8.某大学的一位研究人员希望估计该大学本科生平均每月的生活费支出,为此,他调查了200名学生,发现他们每月平均生活费支出是500元。该研究人员感兴趣的参数是()A 该大学的所有学生 B该大学所有大学生的月平均生活费支出 C该大学所有的在校本科生 D 所调查的200名学生正确答案是(B),同步训练,9.某大学的一位研究人员希望估计该大学本科生平均每月的生活费支出,为此,他调查了200名学生,发现他们每月平均生活费支出是500元。该研究人员感兴趣的统计量是()A 该大学的所有学生 B该大学所有大学生的月平均生活费支出 C该大学所有的在校本科生 D 所调查的200名
12、学生的月平均生活费支出正确答案是(D),同步训练,10.为了估计某城市中拥有汽车的家庭比例,抽取500个家庭的一个样本,得到拥有汽车的家庭比例为35%,这里的35%是()A 参数值 B 统计量的值 C 样本量 D 变量正确答案是(B),同步训练,11.分层机抽样的特点是 A.使得总体中的每一个元素都有相同的机会被抽中 B.在抽样之前先将总体的元素划分为若干类,使得每一类都有相同的机会被抽中 C.先将总体划分成若干群,使得每一群都有相同的机会被抽中 D.先将总体各元素按某种顺序排列,使得总体中的每一个元素都有相同的机会被抽中正确答案是(B),同步训练,12.为了解大学生的上网时间,从全校所有学生
13、宿舍中随机抽取50个宿舍,然后对抽中宿舍中的每个学生进行调查,这种抽样调查方法是 A.分层抽样 B.简单随机抽样 C.系统抽样 D.整群抽样正确答案是(D),同步训练,13.在抽取样本时,一个元素被抽中后不再放回总体,然后再从所剩下的元素中抽取第二个元素,直到抽取n个元素为止,这样的抽样方法称为 A.重复抽样 B.不重复抽样 C.分层抽样 D.系统抽样正确答案是(B),新课小结,抽样推断概念抽样推断的特点抽样推断的应用几个基本概念,复习旧课,抽样推断概念抽样推断的特点抽样推断的应用几个基本概念,第二节 抽样推断的理论依据,抽样推断的理论依据,(一)随机事件及其概率(二)大数定律(三)中心极限定
14、理,(一)随机事件及其概率,1.随机事件我们经常接触到的现象可以分为两类,一类叫确定性现象,一类叫不确定性现象,在概率论中称为随机现象。为了研究随机现象内部存在的数量规律性,我们必须对随机现象进行多次重复试验。每次试验中,可能发生可能不发生的事件称为随机事件(或偶然事件)。,(一)随机事件及其概率,2.概率 概率是用来度量随机事件出现的可能性大小。从不同角度,概率有三种定义:(1)概率的统计定义在相同条件下进行大量的重复试验,一个随机事件出现的次数和总的试验次数之比,称为这个事件在这次试验中出现的频率,以频率作为概率的近似值。,概率的统计定义(例题分析),例如,投掷一枚硬币,出现正面和反面的频
15、率,随着投掷次数 n 的增大,出现正面和反面的频率稳定在1/2左右,概率的统计定义(例题分析),【例】:某工厂为节约用电,规定每天的用电量指标为1000度。按照上个月的用电记录,30天中有12天的用电量超过规定指标,若第二个月仍没有具体的节电措施,试问该月第一天用电量超过指标的概率。解:上个月30天的记录可以看作是重复进行了30次试验,试验A表示用电超过指标出现了12次。根据概率的统计定义有,(一)随机事件及其概率,(2)概率的古典定义 n表示该试验中所有可能出现的基本结果的总数目。M表示事件A包含的试验基本结果数。,概率的古典定义(例题分析),【例】某钢铁公司所属三个工厂的职工人数如下表。从
16、 该公司中随机抽取1人,问:(1)该职工为男性的概率(2)该职工为炼钢厂职工的概率,概率的古典定义(例题分析),解:(1)用A 表示“抽中的职工为男性”这一事件;A为全公司男职工的集合;样本空间为全公司职工的集合。则,(2)用B 表示“抽中的职工为炼钢厂职工”;B为炼钢厂全体职工的集合;样本空间为全体职工的集合。则,(一)随机事件及其概率,(3)主观概率的定义主观概率是凭个人经验或专业技能对某一事件出现可能性大小进行的一种人为估计。一家餐馆将生存5年的概率,可以用已经生存了5年的类似餐馆所占的比例作为所求概率一个近似值根据自己的判断,明天某只股票上涨的可能性为80%,(一)随机事件及其概率,3
17、.随机变量概念:设E是随机试验,其样本空间S=e,如果对每一个样本点eS 有一个实数Xe与它对应,这个在样本空间S上定义的单值实值函数Xe称为随机变量,简称为X。记录某次试验结果时,事先不知道会出现什么结果的变量类型:离散型随机变量和连续型随机变量。,(二)大数定律,1.契比雪夫定理设随机变量,相互独立,且具有相同的数学期望和方差:,则 依概率收敛于数学期望。2.贝努利定理 3.辛钦定理,大数定律对于抽样推断的意义:从理论上揭示了样本和总体之间的内在联系,即随着抽样单位数的增大,样本平均数(或比例)有接近于总体平均数(或比例)的趋势。,(二)大数定律,(三)中心极限定理,1.独立同分布的中心极
18、限定理 2.李雅普诺夫定理 3.德莫佛-拉普拉斯定理,中心极限定理,当总体服从正态分布N(,2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x 的期望值为,方差为2/n。即xN(,2/n),中心极限定理(central limit theorem),从均值为,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布,抽样分布与总体分布的关系,总体分布,正态分布,非正态分布,大样本,小样本,样本均值正态分布,样本均值正态分布,样本均值非正态分布,正态分布函数的性质,图形是关于x=对称钟形曲线,且峰值在x=处均值和标准差一旦
19、确定,分布的具体形式也惟一确定,不同参数正态分布构成一个完整的“正态分布族”均值可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的“陡峭”或“扁平”程度。越大,正态曲线扁平;越小,正态曲线越高陡峭当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1,和 对正态曲线的影响,中心极限定理对于抽样推断的意义:当我们的认识对象分布未知时,只要坚持随机原则抽取足够多的样本单位,就可以使样本统计量服从(或近似服从)正态分布,继而可运用正态分布理论,根据样本信息来推断总体
20、的数量特征。,(三)中心极限定理,第三节 抽样分布,学习目标,抽样分布概念(理解)样本均值的分布(理解)样本比例的分布(理解),样本统计量的概率分布,是一种理论分布按一定方法随机选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 随机变量是 样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据,一、抽样分布(sampling distribution),按一定方法随机选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布一种理论概率分布推断总体均值的理论基础,二、样本均
21、值的分布,样本均值的分布(例题分析),【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4。总体的均值、方差及分布如下,均值和方差,样本均值的分布(例题分析),现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为,样本均值的分布(例题分析),计算出各样本的均值,如下表。并给出样本均值的抽样分布,样本均值的分布与总体分布的比较(例题分析),2=1.25,总体分布,样本均值分布,实践中不可能将所有样本一一列举对于样本的概率分布只能进行推算推算的理论依据是中心极限定理,抽样分布定理,全部可能样本平均数
22、的均值等于总体均值,即:从非正态总体中抽取的样本平均数当n足够大时其分布接近正态分布。从正态总体中抽取的样本平均数不论容量大小其分布均为正态分布。样本均值的标准差为总体标准差的。,抽样分布定理中心极限定理,样本均值分布的重要结论:(一)重复抽样(二)不重复抽样,总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品)与全部产品总数之比总体比例可表示为样本比例可表示为,三、样本比例的分布(proportion),按一定方法随机选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布一种理论概率分布采用重复抽样方法,当样本容量很大时,样本比例的抽样
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第7章 抽样推断 抽样 推断
链接地址:https://www.desk33.com/p-750335.html