统计学(抽样调查).ppt
統計學概念,1.什麽是統計學?统计学是研究有关收集、整理和分析数据从而对研究的对象加深了认识并作出一定结论的方法和理论。統計學的分類?*描述统计学和推论统计学*理论统计学和应用统计学,如何搜集統計資料,1.来源于出版物的数据资料2.来源于统计调查的数据资料 普查 統計報表 抽樣調查(實際應用最廣泛),抽样调查,4.1 抽样调查基本理论4.2 抽样技术的类别及特点4.3 抽样误差及样本数目的确定,4.1.1 抽样调查的含义及其特点,4.1 抽样调查基本理论,4.1.1 抽样调查的含义及其特点,1)抽样调查的概念抽样调查也称为抽查,是指从调研总体中抽选出一部分要素作为样本,对样本进行调查,并根据抽样所得的结果推断总体的一种专门性的调查活动。抽样调查是一种被广泛使用的调查方法。,2)抽樣調查的特點抽样调查的優點 时间短、收效快。质量高、可信程度好 费用省、易推广。,抽样调查的缺點由于抽样调查所调查的对象是调查对象中的一部分,抽样调查的结果是从抽取样本中获取的信息资料推断出来的,所以,抽样调查存在着抽样误差。抽样误差是客观存在的,在一定范围内也是允许的。,4.1.2 抽样误差的控制,4.1抽样调查基本理论,4.1.2 抽样误差的控制,1)要准确选定抽样技術。2)要正确确定样本数目。3)要加强对抽样调查的组织领 导,提高抽样调查工作的质量。,4.1.3 抽样调查的一般程序,4.1 抽样调查基本理论,4.1.3 抽样调查的一般程序,确定调查总体 个体编号 选择调查样本 实施调查 测算结果,【观念应用 4-1】从1000个对象中抽选出100个样本进行访问调查,请他们对经济发展速度的前景进行预测,其中认为明年经济增长速度将达到8%以上的有60人,即占被抽样总数的60%,按百分比推算法,调查总体1000个对象中将有600人认为明年的经济增长速度将达到8%以上,说明大多数人对经济发展前景相当看好。也可按平均数推算法进行推断,即将调查的样本结果加以平均求出样本平均数代入平均数推算总体的公式(总体=总体个数*样本平均数)。假定对500个商店客流量调查,从50个样本调查结果,平均客流量为350人次,那么500个商店的总客流量为:500350人次=175 000人次。【分析提示】按百分比推算法和平均数推算法,以样本指标推算总体指标。,【小思考4-1】抽样调查中是否一定存在抽样误差,能否控制?答:抽样误差是客观存在和不可避免的,但误差的大小是可以控制的。可通过选定不同的抽样方法及样本数目来控制误差;另外,加强对抽样调查的组织领导,也可提高抽样调查的工作质量。,4.2.1 抽样技术的类别,4.2 抽样技术的类别及特点,4.2.1 抽样技术的类别,抽样技术的概念及分类*随机抽样技术又称为概率抽样技术,是对总体中每一个个体都给予平等的抽取机会的抽样技术。*非随机抽样技术是指总体中每一个个体不具有被平等抽取的机会,而是根据一定主观标准来抽选样本的抽样技术。(依賴研究者個人的經驗和判斷,適用於做探索性研究),4.2.2 随机抽样技术的分类及技术特点,4.2 抽样技术的类别及特点,4.2.2 随机抽样技术的分类及技术特点,1)随机抽样技术一般分为四种类型,4.2.2 随机抽样技术的分类及技术特点,(1)简单随机抽样技术抽签法乱数表法,哈!哈!哈!,表4-1 乱 数 表,【小知识4-2】要从94家上市公司中抽取12家作为调查样本,可先将94空公司由1至94编号N=94,然后在乱数表上任意上一点一行(或一列)中一个数字作为起点数,从这个数字按上下或左右顺序读起,每出现两个数字,即为被抽中的单位码号。假定本例是从第四行左边第五个数字向右顺序读起,则所抽取单位是:68 27 31 05 03 72 93 15 55 59 56 35,此过程中的96因大于94,舍去不用是因为在顺序抽取的过程中,遇到比编号大的数字,应该舍去。,儘管簡單隨機抽樣在理論上是最符合隨機原則的,但在實際應用中則有一定的侷限性,表現在:採用簡單隨機抽樣,一般須對總體各單位加以編號,而實際所需調查總體往往十分龐大,單位非常多,逐一編號相當困難。某些事物無法適用簡單隨機抽樣,例如,對連續不斷生產的大量產品進行質量檢驗,就不能對全部產品進行編號抽樣。,當總體的標誌差異程度較大時,簡單隨機抽樣的代表性就不如經過分層後再抽樣的代表性高(詳見以下的分層抽樣)。由於抽出樣本單位較為分散,所以調查人力、物力、費用消耗較大。因此,這種方式適用於總體單位數不太龐大以及總體分佈比較均勻的情況。,4.2.2 随机抽样技术的分类及技术特点,(2)等距离随机抽样技术系統抽樣(systematic sampling)又稱等距抽樣,就是先將母體各單位按一定順序排列起來,然後按一定間隔來抽取樣本單位。單位順序的排列方式有兩種:一種是排列順序與調查專案無關。例如,在住戶調查時,選擇住戶可以按住戶所在街區的門牌號碼排序,然後每隔若干個號碼抽選一戶進行調查;另一種是按與調查專案有關標誌排序。例如,住戶調查時,可按住戶平均月收入排序,再進行抽選。抽样间隔计算公式为:抽样间隔=总体数(N)样本数(n)(4.2),系統抽樣與簡單隨機抽樣比較,可使中選單位比較均勻地分佈在母體中,尤其當被研究現象的差異程度較大,而在實際工作中又不可能抽選更多的樣本單位元時,這種方式更為有效,因此,系統抽樣是市場調查中應用很廣的一種抽樣方式。,【观念应用4-4】某地区有零售店110户,采用等距离抽样方法抽选11户进行调查。第一步,将总体调查对象(110户零售店)进行编号,即从1号至110号。第二步,确定抽样间隔。已知调查总体N=110,样本数n=11户,故抽样间隔=110/11=10(户)。第三步,确定起抽号数。用10张卡片(即抽样间隔)从1号至10号编号,然后从中随机抽取1张作为起抽数号。如果抽出的是2号,2号则为起抽号数。第四步,确定被抽取单位。从起抽号开始,按照抽样间隔选择样本。本例从2号起每隔10号抽选一个,直至抽足11个为止。计算方法是:22+10=122+102=222+1010=102即所抽的单位是编号为2、12、22、32、42、52、62、72、82、92、102的11个零售店。【分析提示】等距离抽样,方法简单,却省了一个个抽样的麻烦,适用于大规模调查。还能使样本均匀地分散在调查总体中,不会集中于某些层次,增加了样本的代表性。,4.2.2 随机抽样技术的分类及技术特点,(3)分层随机抽样技术又称为分类随机抽样技术,是把调查总体按其属性不同分为几个层次(或类型)然后在各层(或类型)中随机抽取样本。等比例分层抽样 分层最佳抽样法按分层标准差大小调整各层样本单位数,其计算公式为:(4.1)式中::各类型应抽选的样本单位数;:样本单位总数;:各类型的调查单位数;:各类型调查单位平均数(成数)的样本标准差。,分層抽樣比簡單隨機抽樣和系統抽樣更為精確,能夠通過對較少的抽樣單位的調查,得到比較準確的推斷結果,特別是當母體較大、內部結構複雜時,分層抽樣常能取得令人滿意的效果。同時,分層抽樣在對母體推斷的同時,還能獲得對每層的推論,並且利於層和層之間的比較。,【观念应用4-2.1】某地共有居民20000户,按经济收入高低进行分类,其中高收入的居民为4000户,占总体的20%,中收入为12000户,占总体的60%,低收入为4000户,占总体的20%。要从中抽选200户进行购买力调查,则各类型应抽取的样本单位数为:经济收入高的样本单位数目为:20020%=40(户)经济收入中的样本单位数目为:20060%=120(户)经济收入低的样本单位数目为:20020%=40(户)【分析提示】样本单位数的抽取是按各种经济收入的单位数量占总体单位数量的比例进行样本的抽选。,【观念应用4-3】仍以上述居民收入与购买力之间关系为例。各层样本标准差其中高收入为300元,中收入为200元,低收入为100元,为了便于观察,列表如表5-2所示。表4-2 调查单位数与样本标准差乘积计算表,各层次(不同经济收入),各层的调查单位数(户)Ni,各层的样本标准差(元)Si,乘积NiSi,高 中 低,4 00012 0004 000,300200100,1 200 0002 400 000400 000,NiSi,20 000,4 000 000,注:样本标准差的差别主要凭经验判断确定,上例是假定的,也可通过计算公式确定。计算公式为:样本标准差=离差的平方和样本数目按照公式计算,得出各类型应抽选的样本单位数为:高收入样本单位数目为:200(12000004000000)=60(户)中收入样本单位数目为:200(24000004000000)=120(户)低收入样本单位数目为:200(4000004000000)=20(户)【分析提示】样本单位数是按各种经济收入下的样本标准差的大小进行调整的,按,计算。,4.2.2 随机抽样技术的分类及技术特点,(4)分群随机抽样技术分群随机抽样技术,又称整群抽样技术,是把调查总体区分为若干群体,然后用单纯随机抽样法,从中抽取某些群体进行全面调查。运用分群抽样技术抽取样本,先要把调查总体区分为若干个群体,然后用单纯随机抽样法,从中抽取某些群体进行全面调查。如果不是对所抽取的群体进行全面调查,而是进一步划分为若干个小群体,再按随机原则抽取一个或一部分小群体来调查,称为多段分群抽样。运用分群抽样技术抽取样本,抽选工作比较简易方便,抽中的单位比较集中,但是由于样本单位集中在某些群体,而不能均匀分布在总体中的单位,如果群与群之间差异较大,则抽样误差就会增大。,分群抽樣的優點,是組織工作比較方便,確定一組就可以抽出許多單位進行觀察。但正因為以群為單位進行抽選,抽選單位比較集中,明顯地影響了樣本分佈的均勻性。因此在抽樣單位數目相同的條件下抽樣誤差較大,代表性較低。在抽樣調查實踐中,採用分群抽樣時,一般都要比其他抽樣方式抽選更多的單位,以降低抽樣誤差,提高抽樣結果的準確程度。,當然,分群抽樣的可靠程度,主要還是取決於群與群之間的差異大小,當各群間差異越小時,分群抽樣的調查結果就越準確。因此,在大規模的市場調查中,當群內各單位間的差異較大,而各群之間差異較小時,才可考慮採取群集抽樣方式。例如:各班差異小,班級內差異大,4.2.2 随机抽样技术的分类及技术特点,2)随机抽样技术的特点,4.2.2 随机抽样技术的分类及技术特点,(1)随机抽样技术的优点随机抽样是从总体中按照随机原则抽取一部分单位进行的调查随机抽样技术能够计算调查结果的可靠程度(2)随机抽样技术的不足 对所有调查样本都给予平等看待,难以体现重点。抽样范围比较广,所需时间长,参加调查的人员和费用多。需要具有一定专业技术的专业人员进行抽样和资料分析。一般调查人员难以胜任。,4.2.3 非随机抽样技术的分类及特点,4.2 抽样技术的类别及特点,4.2.3 非随机抽样技术的分类及特点,1)非随机抽样技术又称非概率抽样技术,一般分为四种类型:*方便抽样技术*判断抽样技术*配额抽样技术*雪球抽樣技术,採用非隨機抽樣通常是出於下述幾個原因:受客觀條件限制,無法進行嚴格的隨機抽樣為了快速獲得調查結果 在調查物件不確定,或無法確定的情況下採用,例如,對某一突發(偶然)事件進行現場調查等 總體各單位間離散程度不大,且調查員具有豐富的調查經驗時,一.方便抽樣,方便抽樣(convenient sampling)又稱偶遇抽樣,是根據調查者的方便與否來抽取樣本的一種抽樣方法。如採取“街頭攔人法”,即在街上或路口任意找某個行人,將他(她)作為被訪者,進行調查。例如,在街頭向行人詢問對市場物價的看法,或請行人填寫某種問卷等。方便抽樣簡便易行,能及時取得所需的資訊資料,省時、省力、節約經費,但抽樣偏差較大,一般用於非正式的探索性調查,只有在調查母體各單位之間差異不大時,抽取的樣本才有較高的代表性。,二.判斷抽樣,判斷抽樣(judgment sampling)又稱目的抽樣,它是憑研究人員的主觀意願、經驗和知識,從母體中選擇具有典型代表性樣本作為調查物件的一種抽樣方法。應用這種抽樣方法的前提是研究者必須對母體的有關特徵有相當高的瞭解。故其結果的客觀性常受到人們的懷疑。,三.配額抽樣,配額抽樣(quota sampling)是非隨機抽樣中最流行的一種,配額抽樣類似隨機抽樣中的分層抽樣,它也是首先將母體中的所有單位按一定的標誌分為若干類(組),然後在每個類(組)中用方便抽樣或判斷抽樣方法選取樣本單位。,採用配額抽樣,事先要對母體中所有單位按其屬性、特徵分為若干類型,這些屬性、特徵稱為“控制特徵”。如被調查者的年齡、收入、職業、教育程度等,然後,按各個控制特徵分配樣本數額。配額抽樣方法簡單易行,可以保證母體的各個類別都能包括在所抽樣本之中,故與其他幾種非隨機抽樣方法相比,樣本具有較高的代表性。,四.雪球抽樣,雪球抽樣(snowball sampling)是以“滾雪球”的方式抽取樣本。即通過少量樣本單位以獲取更多樣本單位的資訊。這種方法的運用前提是母體樣本單位之間具有一定的聯繫,是在不甚瞭解母體的情況下對母體或母體部分單位元情況進行掌握。,例如,某研究部門在調查某市勞務市場中的保姆問題時,先訪問了7名保姆,然後請她們再提供其他保姆名單,逐步擴大到近百人。透過對這些保姆的調查,對保姆的來源地、從事工作的性質、經濟收入等狀況有了較全面的掌握。,聯積抽樣檢驗舉例,系統抽樣(每2個小時抽樣一次,以便分析機台的穩定性并確保產品的品質),首檢表,切割站,聯積抽樣檢驗舉例,美國軍用標準MIL-STD1916抽樣表-,OQC作業員正在抽檢以確認產品品質,OQC站,4.3.1 抽样误差的确定,4.3 抽样误差及样本数目的确定,4.3.1 抽样误差的确定,1)影响抽样误差大小的因素有:(1)总体单位之间的标志变异程度。(2)样本单位的数目多少与抽样误差大小有关(3)抽样方法的不同,抽样误差大小也不相同2)抽样误差大小的理论计算,4.3.1 抽样误差的确定,(1)平均数重复抽样误差的计算公式:,(4.3)式中:,代表抽样平均误差,代表总体平均方差 n代表样本单位数注:,一般要进行换算,,=,或以样本标准差代替。也可以采取经验估算等等。,4.3.1 抽样误差的确定,(2)平均数不重复抽样误差的计算公式:(4.4)式中:N代表总体单位数 1-代表修正系数,1-,4.3.1 抽样误差的确定,(3)成数重复抽样误差的计算公式:(4.5)式中:代表成数(相对数)抽样误差 P代表成数(相对数)n代表样本单位数,4.3.1 抽样误差的确定,(4)成数不重复抽样误差计算公式:(4.6),4.3.2 抽样数目的确定,4.3 抽样误差及样本数目的确定,4.3.2 抽样数目的确定,影响抽样数目多少的因素有:(1)总体中各单位之间标志值的变异程度。(2)允许误差的大小。(3)不同的抽样方法也会影响抽样数目的多少,4.3.2 抽样数目的确定,(1)平均数指标重复抽样数目的计算公式:(4.7)式中:样本单位数:总体方差:概率度平方:平均数允许误差平方,4.3.2 抽样数目的确定,(2)平均数指标不重复抽样数目的计算公式:(4.8)式中:总体单位数,4.3.2 抽样数目的确定,(3)成数指标重复抽样数目的计算公式:(4.9),4.3.2 抽样数目的确定,(4)成数指标不重复抽样数目的计算公式:(4.10)式中:概率:成数:成数允许误差:抽样数目,表4-4 概 率 表,概率度,把握程度,允许误差,1.001.501.962.003.00,0.68270.88640.950.95450.9973,1.001.501.962.003.00,4.3.3 点值估计与区间估计值的计算,4.3 抽样误差及样本数目的确定,4.3.3 点值估计与区间估计值的计算,1)点值估计值的计算2)区间估计值的计算,【小知识4-3】某地区有居民10万户,据年1月份底抽样调查,在1000户样本中得到空调机家庭普及率为20%,以此作为全地区居民空调机在1月份底的社会保有量,即为:10000020%=20000(台),【观念应用4-5】某地区有农民10000户,随机重复抽选100户农民,经调查有36户拥有彩色电视机,求农民彩电拥有率的抽样误差。【分析提示】运用成数重复公式计算即可。,【小思考4-3】样本容量是否影响估计的精度,是不是样本容量越大越好?答:市场调查中,样本容量的大小直接影响到估计的精度,增加样本容量会提高估计的精度,但样本容量的增加会使调查费用增加,样本容量太大,固然在精度上能完全满足要求,但可能会造成浪费,因此,不是样本容量越大越好。,