《统计学》总复习.pptx
统计学期末复习,简答题可能范围,统计数据可分为哪几种类型?不同类型的数据各有什么特点?比较概率抽样和非概率抽样特点。并说明什么时候使用概率抽样,什么时候适用非概率抽样?分类数据和顺序数据的整理和图示方法有哪些?直方图与条形图的区别。一组数据的分布特征可以从哪几个方面进行测度?简述众数、中位数、平均数的特点及应用场合。独立性、互斥性的关系。正态分布、泊松分布在实际生活中的例子。,复 习,本课程的逻辑关系,1、统计学定义:收集、处理、分析、解释数据并从数据中得出结论的科学,2、统计处理方法,二、三、四章,第五章,第六、七章,描述统计(descriptive statistics),研究数据收集、处理、汇总、图表描述、概括与分析等统计方法 内容搜集数据整理数据展示数据描述性分析 目的描述数据特征找出数据的基本规律,推断统计(inferential statistics),研究如何利用样本数据来推断总体特征的统计方法内容参数估计假设检验目的对总体特征作出推断,重点掌握的几个概念,总体与样本总体:所研究的全部个体(数据)的集合,其中的每一个个体也称为元素样本:从总体中抽取的一部分元素的集合,参数与统计量参数:描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值所关心的参数主要有总体均值()、标准差()、总体比例()等统计量:用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等,第1章 导论,复习要点 统计数据的类型,1.2 统计数据的类型,统计数据的分类,1.2.1 分类数据、顺序数据和数值型数据,分类数据(categorical data)只能归于某一类别的非数字型数据对事物进行分类的结果,数据表现为类别,用文字来表述例如,人口按性别分为男、女两类 顺序数据(rank data)只能归于某一有序类别的非数字型数据对事物类别顺序的测度,数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等 数值型数据(metric data)按数字尺度测量的观察值结果表现为具体的数值,对事物的精确测度例如:身高为175cm、168cm、183cm,注意,搞清楚不同数据类型下的图表展示方法(第三章)例如,分类数据通常用哪些图表展示;数值型数据通常用那些图表展示。,搞清楚不同类型数据的集中趋势、分散程度等度量指标(第四章)例如,在度量数据的集中趋势时,分类数据通常用众数、顺序数据用中位数等。,1.2.2 观测数据和实验数据,观测数据(observational data)通过调查或观测而收集到的数据在没有对事物人为控制的条件下而得到的有关社会经济现象的统计数据几乎都是观测数据实验数据(experimental data)在实验中控制实验对象而收集到的数据例如,对一种新药疗效的实验,对一种新的农作物品种的实验等自然科学领域的数据大多数都为实验数据,1.2.3 截面数据和时间序列数据,截面数据(cross-sectional data)在相同或近似相同的时间点上收集的数据描述现象在某一时刻的变化情况例如,2011年我国各省区的国内生产总值数据时间序列数据(time series data)在不同时间上收集到的数据描述现象随时间变化的情况例如,1978-2011年中国国内生产总值数据面板数据(panel data):截面数据与时间序列数据的结合,例如1978-2011年我国大陆31个省区的GDP数据,第2章 数据的搜集,复习要点 概率抽样的类型非概率抽样的类型,2.1 搜集数据的基本方法,2.2 调查数据,2.2.1 概率抽样和非概率抽样 1.概率抽样(probability sampling)也称随机抽样,遵循随机原则进行的抽样特点按一定的概率以随机原则抽取样本每个单位被抽中的概率是已知的,或是可以计算出来的 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率注意:随机不等于随便。随机抽样时,每个单位都有一定的机会被抽中;而随便则有主观因素。,概率抽样的类型,简单随机抽样分层抽样整群抽样系统抽样(等距抽样)多阶段抽样,概率抽样的类型,(1)简单随机抽样(simple random sampling)从总体N个单位中随机地、一个个地抽取n个单位作为样本,每个单位入选的概率是相等的等价于非重复抽样抽选方式抽签通过随机数字表,或能产生随机数序列的计算机程序最基本的抽样方法,是其它抽样方法的基础,概率抽样的类型,(1)简单随机抽样(simple random sampling)特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其它辅助信息以提高估计的效率所以,在规模较大的调查中,很少直接采用简单随机抽样,概率抽样的类型,(2)分层抽样(stratified sampling)将总体中的各单位按照某种特征或某种规则划分成若干个不同的类型组,然后从各类型组中独立地、随机地抽取样本优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计,概率抽样的类型,分层抽样的应用:某服装厂有500名员工,其中35岁以下有125人,35-49岁的有280人,50岁以上的有95人。为了了解这个单位员工身体状况的某项指标,要从中抽取一个容量为100的样本,由于职工年龄与这项指标有关,决定采用分层抽样的方法。因为样本容量与总体容量的比为1:5,所以在各年龄段抽取的个数依次为125/5,280/5,95/5,即25、56和19。最后,依次在各年龄段独立地、随机抽取25人、56人和19人。,概率抽样的类型,(3)整群抽样(cluster sampling)将总体各单位划分为若干群,然后以群为单位从中随机抽取一些群,对抽中群的所有单位都进行调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差整群抽样的应用:某中学为了调查中学生患近视眼的情况,从3个年级共36个班级中随机抽取1个班级,对该班级全部学生的视力状况进行调查。,概率抽样的类型,(4)系统抽样(systematic sampling)将总体中各单位按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按照一定的间隔抽取其它样本单位优点:使样本单位均匀分布在总体中,操作简便缺点:对估计量方差的估计比较困难,概率抽样的类型,系统抽样的应用:为了解某大学5000名学生的消费支出水平,现要从中抽取一个容量为100的样本。首先按照学号代码对总体进行排列,把总体划分为k=5000/100=50个相等的间隔;再从第1-50人中随机抽取一名,假设抽到第8名,则后面间隔依次抽取第58、108、158名等直到第4958名,共100名学生。,概率抽样的类型,(5)多阶段抽样(multi-stage sampling)将对总体单位的整个抽样过程分为两个或更多个阶段进行,先从总体中抽选若干个大的样本群,称为第一阶段单位,然后从被抽中的若干个大的单位群中,抽选较小的样本单位,以此类推。特点:每一阶段都等价于整群抽样具有整群抽样的优点,保证样本相对集中,节约调查费用需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开在大规模的抽样调查中,是经常被采用的方法,概率抽样的类型,多阶段抽样的应用:为了调查某品牌手机在我国的产品售后满意度,可以首先从全国各省份中抽取几个省,然后从抽中的省份中抽取若干个城市,从抽中的城市中,在抽取若干个县区,这种抽样方式就是多阶段抽样。,2.2 调查数据,2.非概率抽样(non-probability sampling)相对于概率抽样而言抽取样本不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查包括:方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样等方式,非概率抽样的类型,(1)方便抽样调查过程中由调查员依据方便的原则,自行确定入选样本的单位调查员在街头、公园、商店等公共场所进行拦截调查厂家在出售产品柜台前对路过顾客进行的调查优点:容易实施,调查的成本低缺点:样本单位的确定带有随意性,样本无法代表有明确定义的总体,调查结果不宜推断总体,非概率抽样的类型,(2)判断抽样研究人员根据经验、判断和对研究对象的了解,有目的选择一些单位作为样本有重点抽样,典型抽样,代表抽样等方式判断抽样是主观的,样本选择的好坏取决于调研者的判断、经验、专业程度和创造性抽样成本比较低,容易操作样本是人为确定的,没有依据随机的原则,调查结果不能用于推断总体,非概率抽样的类型,(3)自愿样本被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息例如,参与报刊上和互联网上刊登的调查问卷活动,向某类节目拨打热线电话等,都属于自愿样本自愿样本与抽样的随机性无关样本是有偏的不能依据样本的信息推断总体,非概率抽样的类型,(4)滚雪球抽样先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。这个过程持续下去,就会形成滚雪球效应适合于对稀少群体和特定群体研究优点:容易找到那些属于特定群体的被调查者,调查的成本也比较低,非概率抽样的类型,(5)配额抽样先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位操作简单,可以保证总体中不同类别的单位都能包括在所抽的样本之中,使得样本的结构和总体的结构类似抽取具体样本单位时,不是依据随机原则,属于非概率抽样,概率抽样 V.S.非概率抽样,概率抽样依据随机原则抽选样本样本统计量的理论分布存在可根据调查的结果推断总体非概率抽样不是依据随机原则抽选样本样本统计量的分布是不确定的无法使用样本的结果推断总体注意:教材后面章节中若为特别说明,样本均是通过概率抽样中的简单随机抽样方式获取的。,第3章 数据的图表展示,复习要点 品质数据的整理与图示:表及图数值型数据的整理与图示:时间序列数据:线图多变量数据:雷达图、气泡图等,分类数据的图示条形图,分类数据的图示饼图,环形图,数值型数据-直方图,某电脑公司销售量分布的直方图,我一眼就看出来了,销售量在170180之间的天数最多!,数值型数据茎叶图,某电脑公司销售量分布的茎叶图,数值型数据箱线图,时间序列数据线图,两个变量间的关系二维散点图(2D Scatterplots),三个变量间的关系气泡图(bubble chart),显示三个变量之间的关系图中数据点的大小依赖于第三个变量,多变量数据雷达图,数据类型及图示,第4章 数据的概括性度量,复习要点 数据分布特征集中趋势的度量:平均数、中位数、众数离散程度的度量:方差、标准差、离散系数偏态与峰态的度量,数据分布的特征,数据分布特征的刻画,集中趋势:中心、位置测度指标:众数、中位数(四分位数)、平均数适用数据:分类、顺序、数值型离散程度:波动程度、远离中心的程度测度指标:异众比率、四分位差、方差(标准差)适用数据:分类、顺序、数值型特别注意:离散系数(变异系数)偏斜程度:形状测度指标:偏度、峰度,众数(不惟一性),无众数原始数据:10 5 9 12 6 8,一个众数原始数据:6 5 9 8 5 5,多于一个众数原始数据:25 28 28 36 42 42,中位数(位置和数值的确定),位置确定,数值确定,四分位数,2.四分位数(quartile)四分位数、百分位数(percentile)四分位数是通过3个点将全部数据等分为4部分,其中每部分包含25%的数据QL为第一四分位数(下四分位数)QM为第二四分位数,也即中位数QU为第三四分位数(上四分位数),四分位数的计算,四分位数的计算QL位置d=n/4QU位置d=3n/4若d是整数,四分位数就是该位置对应的值;若d不是整数,则取与d 位置相邻的两项数据的加权平均数,即:Q=d左端的数据+(d右端的数据-d左端的数据)*d的小数部分,例题,【例】:10个家庭的人均月收入数据排序:660 750 780 850 960 1080 1250 1500 1630 2000位置:1 2 3 4 5 6 7 8 9 10 中位数位置=(10+1)/2=5.5中位数=(960+1080)/2=1020上四分位数位置=(10*3)/4=7.5上四分位数=(1250+1500)/2=1375下四分位数位置=(10*1)/4=2.5下四分位数=(750+780)/2=765,简单平均数与加权平均数,简单平均数:加权平均数(分组数据):其中,Mi(i=1,2,k)表示各组的组中值,fi(i=1,2,k)表示各组频数,小结:众数、中位数和平均数的特点及应用,1、众数不受极端值影响具有不惟一性应用场合:偏态分布且有明显峰值时、分类数据2、中位数不受极端值影响应用场合:偏态分布、顺序数据3、平均数利用了全部数据信息,数学性质优良易受极端值影响数据对称分布或接近对称分布时应用,小结:众数、中位数和平均数的特点及应用,平均数由全部数据计算,包含了全部数据的信息,具有良好的数学性质,当数据接近对称分布时,具有较好的代表性;但容易受极端值的影响,所以对于偏态分布,其代表性较差中位数是一组数据中间位置上的代表值,不受数据极端值的影响,对于偏态分布的数据,其代表性要比均值好众数是数据集中出现频率最高的数值,具有不受极端值影响的特点,是品质型数据集中趋势的常用测度值,样本方差和标准差(sample variance and standard deviation),未分组数据,组距分组数据,未分组数据,组距分组数据,方差的计算公式,标准差的计算公式,4.23 经验法则,经验法则表明:当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内,4.2.4 相对离散程度:离散系数,方差和标准差易受到数据水平高低和计量单位的影响离散系数,也称为变异系数(coefficient of variation),是一组数据的标准差与其相应的均值之比计算公式为:离散系数是测度数据的相对离散程度,主要用于比较不同样本的离散程度离散系数越大,说明数据的离散程度越大;反之,则越小,离散系数(例题分析),【例】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度,离散系数(例题分析),结论:计算结果表明,v1v2,说明产品销售额的离散程度小于销售利润的离散程度,4.3 偏态与峰态分布的形状,偏态,峰态,4.3 偏态与峰态的度量,4.3.1 偏态及其测度偏态(skewness)是由统计学家Pearson于1895年首次提出,是对数据分布对称性的测度测度偏态的统计量是偏态系数偏态系数的计算公式:未分组数据分组数据,4.3 偏态与峰态的度量,偏态系数与数据分布对称性:偏态系数SK=0,为对称分布偏态系数SK 0,为右偏分布偏态系数SK 0,为左偏分布偏态系数大于1或小于-1,被称为高度偏态分布;偏态系数在0.51或-1-0.5之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低,4.3 偏态与峰态的度量,4.3.2 峰态及其测度峰态(kurtosis)是由统计学家Pearson于1905年首次提出,是对数据分布平峰或尖峰程度的测度测度峰态的统计量是峰态系数峰态系数的计算公式:未分组数据分组数据,4.3 偏态与峰态的度量,峰态通常是与标准正态分布相比较而言的峰态系数与数据分布扁平程度:峰态系数K=0,标准正态分布峰态系数K0,为尖峰分布,数据分布特征的测度总结,习题例,习题例,2、习题4.1,第五章 概率与概率分布,复习要点随机事件及其概率概率的性质及运算法则离散型随机变量及分布重点掌握两点分布、泊松分布连续型随机变量及分布重点掌握均匀分布、正态分布(包括期望、方差等),事件,事件(event):随机试验的每一个可能结果(任何样本点集合),包括随机事件、必然事件、不可能事件。随机事件(random event):每次试验可能出现也可能不出现的事件,一般用大写字母A、B、C 表示必然事件(certain event):每次试验一定出现的事件。不可能事件(impossible event):每次试验一定不出现的事件,用表示,事件的概率,事件A的概率是对事件A在试验中出现的可能性大小的一种度量,表示为P(A);概率的性质:非负性:对任意事件A,有 0 P(A)1规范性:必然事件的概率为1;不可能事件的概率为0。即P()=1;P()=0可加性若A与B互斥,则P(AB)=P(A)+P(B)推广到多个两两互斥事件A1,A2,An,有 P(A1A2 An)=P(A1)+P(A2)+P(An),概率公式(重点),条件概率:乘法公式:独立性:全概率公式:贝叶斯公式:,随机变量,将样本空间数量化,即用数值来表示试验的结果一般用 X、Y、Z 来表示例如:投掷两枚硬币出现正面的数量根据取值情况的不同分为离散型随机变量和连续型随机变量,离散型随机变量的概率分布,P(X=xi)=pi称为离散型随机变量的概率函数pi0,离散型随机变量分布,两点分布二项分布泊松分布重点掌握各个分布的实际含义及对应的随机变量的期望、方差等,连续型随机变量,密度函数、分布函数概率与密度二者之间的关系期望、方差等定义:设X为一连续型随机变量,x 为任意实数,X的概率密度函数记为f(x),它满足条件,概率密度函数,在平面直角坐标系中画出f(x)的图形,则对于任何实数 x1 x2,P(x1 X x2)是该曲线下从x1 到 x2的面积,分布函数(distribution function),连续型随机变量的概率也可以用分布函数F(x)来表示分布函数定义为,根据分布函数,P(aXb)可以写为,连续型随机变量的期望和方差,连续型随机变量的数学期望为方差为,连续型随机变量分布,均匀分布正态分布(其密度函数f(x)必须掌握!)切记:这两个分布一定重点掌握!多做书例5.19、例5.21、例5.22、书后练习5.8、5.9及5.16,第6章 统计量及其抽样分布,复习要点 t分布2分布F分布,6.2 抽样分布,样本统计量是随机变量统计量的概率分布,称为抽样分布在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布 统计量的结果来自容量相同的所有可能样本抽样分布是进行推断的理论基础,也是抽样推断科学性的重要依据,6.3 由正态分布导出的几个重要分布,6.3.1 2分布6.3.2 t分布6.3.3 F分布,6.3.1 2分布,设随机变量X1,X2,Xn相互独立,且 则有:期望为:,方差为:(n为自由度)可加性:若U和V为两个独立的分布随机变量,则U+V这一随机变量服从自由度为(n1+n2)的 分布,c2分布图示,6.3.2 t分布,设随机变量X与Y相互独立,且,则有:t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散一个特定的t分布依赖于称之为自由度的参数随着自由度的增大,t分布也逐渐趋于正态分布,t 分布图示,第7章 参数估计,复习要点 点估计评价点估计量的标准,第7章 参数估计,点估计,7.1.3 评价估计量的标准,一个良好的估计量应满足无偏性、有效性和一致性1.无偏性(unbiasedness)设 为总体参数,为 的估计量,如果有则称 是参数 的无偏估计量无偏性的实际意义是指没有系统性的偏差,2.有效性(efficiency)对同一总体参数的两个无偏点估计量,有更小标准误差的估计量更有效,是更好的估计量。,7.1.3 评价估计量的标准,7.1.3 评价估计量的标准,3.一致性(consistency)随着样本量的增大,估计量的值越来越接近被估计的总体参数,7.4 样本量的确定,7.4.1 估计总体均值时样本量的确定7.4.2 估计总体比例时样本量的确定,7.4.1 估计总体均值时样本量的确定,在重复抽样或无限总体抽样条件下,估计误差为:给定可接受的估计误差E值,样本容量可表示为:样本容量与置信度成正比样本容量与总体方差成正比样本容量与估计误差的平方成反比,7.4.1 估计总体均值时样本量的确定,总体方差2的确定:根据以前相同或类似的样本方差来代替利用试验调查的办法,选择一个初始样本,以该样本的样本方差作为的2估计值样本量的圆整法则:当计算出的样本量不是整数时,将小数点后面的数值一律进位成整数,如24.68取25,24.32也取25等等:,7.4.2 估计总体比例时样本量的确定,在重复抽样或无限总体抽样条件下,估计误差为:给定可接受的估计误差E值,样本容量可表示为:样本容量与置信度成正比样本容量与估计误差的平方成反比,7.4.2 估计总体比例时样本量的确定,总体比例 的确定:根据以前相同或类似的样本比例p来代替利用试验调查的办法,选择一个初始样本,以该样本的样本比例p作为的估计值如果上述方法均不适用,则取=0.5(最大样本容量)样本量的圆整法则:当计算出的样本量不是整数时,将小数点后面的数值一律进位成整数,如24.68取25,24.32也取25等等:,第11章 线性回归,复习要点 变量关系线性回归模型参数的估计,变量关系,变量之间的关系:函数关系、相关关系相关系数r:度量变量间线性相关关系的大小r 的取值范围是-1,1r=1,为完全正相关;r=-1,为完全负正相关 r=0,不存在线性相关关系-1r0,为负相关0r1,为正相关|r|越趋于1表示关系越强;|r|越趋于0表示关系越弱,散点图(scatter diagram),相关关系的测度(相关系数取值及其意义),r,