《统计学》总复习.pptx
《《统计学》总复习.pptx》由会员分享,可在线阅读,更多相关《《统计学》总复习.pptx(102页珍藏版)》请在课桌文档上搜索。
1、统计学期末复习,简答题可能范围,统计数据可分为哪几种类型?不同类型的数据各有什么特点?比较概率抽样和非概率抽样特点。并说明什么时候使用概率抽样,什么时候适用非概率抽样?分类数据和顺序数据的整理和图示方法有哪些?直方图与条形图的区别。一组数据的分布特征可以从哪几个方面进行测度?简述众数、中位数、平均数的特点及应用场合。独立性、互斥性的关系。正态分布、泊松分布在实际生活中的例子。,复 习,本课程的逻辑关系,1、统计学定义:收集、处理、分析、解释数据并从数据中得出结论的科学,2、统计处理方法,二、三、四章,第五章,第六、七章,描述统计(descriptive statistics),研究数据收集、处
2、理、汇总、图表描述、概括与分析等统计方法 内容搜集数据整理数据展示数据描述性分析 目的描述数据特征找出数据的基本规律,推断统计(inferential statistics),研究如何利用样本数据来推断总体特征的统计方法内容参数估计假设检验目的对总体特征作出推断,重点掌握的几个概念,总体与样本总体:所研究的全部个体(数据)的集合,其中的每一个个体也称为元素样本:从总体中抽取的一部分元素的集合,参数与统计量参数:描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值所关心的参数主要有总体均值()、标准差()、总体比例()等统计量:用来描述样本特征的概括性数字度量,它是根据样本数据计算出
3、来的一些量,是样本的函数所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等,第1章 导论,复习要点 统计数据的类型,1.2 统计数据的类型,统计数据的分类,1.2.1 分类数据、顺序数据和数值型数据,分类数据(categorical data)只能归于某一类别的非数字型数据对事物进行分类的结果,数据表现为类别,用文字来表述例如,人口按性别分为男、女两类 顺序数据(rank data)只能归于某一有序类别的非数字型数据对事物类别顺序的测度,数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等 数值型数据(metric data)按数字尺度测量的观察值结果表
4、现为具体的数值,对事物的精确测度例如:身高为175cm、168cm、183cm,注意,搞清楚不同数据类型下的图表展示方法(第三章)例如,分类数据通常用哪些图表展示;数值型数据通常用那些图表展示。,搞清楚不同类型数据的集中趋势、分散程度等度量指标(第四章)例如,在度量数据的集中趋势时,分类数据通常用众数、顺序数据用中位数等。,1.2.2 观测数据和实验数据,观测数据(observational data)通过调查或观测而收集到的数据在没有对事物人为控制的条件下而得到的有关社会经济现象的统计数据几乎都是观测数据实验数据(experimental data)在实验中控制实验对象而收集到的数据例如,对
5、一种新药疗效的实验,对一种新的农作物品种的实验等自然科学领域的数据大多数都为实验数据,1.2.3 截面数据和时间序列数据,截面数据(cross-sectional data)在相同或近似相同的时间点上收集的数据描述现象在某一时刻的变化情况例如,2011年我国各省区的国内生产总值数据时间序列数据(time series data)在不同时间上收集到的数据描述现象随时间变化的情况例如,1978-2011年中国国内生产总值数据面板数据(panel data):截面数据与时间序列数据的结合,例如1978-2011年我国大陆31个省区的GDP数据,第2章 数据的搜集,复习要点 概率抽样的类型非概率抽样的
6、类型,2.1 搜集数据的基本方法,2.2 调查数据,2.2.1 概率抽样和非概率抽样 1.概率抽样(probability sampling)也称随机抽样,遵循随机原则进行的抽样特点按一定的概率以随机原则抽取样本每个单位被抽中的概率是已知的,或是可以计算出来的 当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率注意:随机不等于随便。随机抽样时,每个单位都有一定的机会被抽中;而随便则有主观因素。,概率抽样的类型,简单随机抽样分层抽样整群抽样系统抽样(等距抽样)多阶段抽样,概率抽样的类型,(1)简单随机抽样(simple random sampling)从总体N个单位中随机地、一个个
7、地抽取n个单位作为样本,每个单位入选的概率是相等的等价于非重复抽样抽选方式抽签通过随机数字表,或能产生随机数序列的计算机程序最基本的抽样方法,是其它抽样方法的基础,概率抽样的类型,(1)简单随机抽样(simple random sampling)特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其它辅助信息以提高估计的效率所以,在规模较大的调查中,很少直接采用简单随机抽样,概率抽样的类型,(2)分层抽样(stratified sampling)将总体中的各单位按照某种特征或某种规则
8、划分成若干个不同的类型组,然后从各类型组中独立地、随机地抽取样本优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计,概率抽样的类型,分层抽样的应用:某服装厂有500名员工,其中35岁以下有125人,35-49岁的有280人,50岁以上的有95人。为了了解这个单位员工身体状况的某项指标,要从中抽取一个容量为100的样本,由于职工年龄与这项指标有关,决定采用分层抽样的方法。因为样本容量与总体容量的比为1:5,所以在各年龄段抽取的个数依次为125/5,280/5,95/5,即25、56和19。最后,依次在各年龄段独立地、随
9、机抽取25人、56人和19人。,概率抽样的类型,(3)整群抽样(cluster sampling)将总体各单位划分为若干群,然后以群为单位从中随机抽取一些群,对抽中群的所有单位都进行调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差整群抽样的应用:某中学为了调查中学生患近视眼的情况,从3个年级共36个班级中随机抽取1个班级,对该班级全部学生的视力状况进行调查。,概率抽样的类型,(4)系统抽样(systematic sampling)将总体中各单位按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按照一定的间隔抽取其它样
10、本单位优点:使样本单位均匀分布在总体中,操作简便缺点:对估计量方差的估计比较困难,概率抽样的类型,系统抽样的应用:为了解某大学5000名学生的消费支出水平,现要从中抽取一个容量为100的样本。首先按照学号代码对总体进行排列,把总体划分为k=5000/100=50个相等的间隔;再从第1-50人中随机抽取一名,假设抽到第8名,则后面间隔依次抽取第58、108、158名等直到第4958名,共100名学生。,概率抽样的类型,(5)多阶段抽样(multi-stage sampling)将对总体单位的整个抽样过程分为两个或更多个阶段进行,先从总体中抽选若干个大的样本群,称为第一阶段单位,然后从被抽中的若干
11、个大的单位群中,抽选较小的样本单位,以此类推。特点:每一阶段都等价于整群抽样具有整群抽样的优点,保证样本相对集中,节约调查费用需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开在大规模的抽样调查中,是经常被采用的方法,概率抽样的类型,多阶段抽样的应用:为了调查某品牌手机在我国的产品售后满意度,可以首先从全国各省份中抽取几个省,然后从抽中的省份中抽取若干个城市,从抽中的城市中,在抽取若干个县区,这种抽样方式就是多阶段抽样。,2.2 调查数据,2.非概率抽样(non-probability sampling)相对于概率抽样而言抽取样本不是依据随机原则,而是根据
12、研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查包括:方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样等方式,非概率抽样的类型,(1)方便抽样调查过程中由调查员依据方便的原则,自行确定入选样本的单位调查员在街头、公园、商店等公共场所进行拦截调查厂家在出售产品柜台前对路过顾客进行的调查优点:容易实施,调查的成本低缺点:样本单位的确定带有随意性,样本无法代表有明确定义的总体,调查结果不宜推断总体,非概率抽样的类型,(2)判断抽样研究人员根据经验、判断和对研究对象的了解,有目的选择一些单位作为样本有重点抽样,典型抽样,代表抽样等方式判断抽样是主观的,样本选择的好坏取决于调研者的判
13、断、经验、专业程度和创造性抽样成本比较低,容易操作样本是人为确定的,没有依据随机的原则,调查结果不能用于推断总体,非概率抽样的类型,(3)自愿样本被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息例如,参与报刊上和互联网上刊登的调查问卷活动,向某类节目拨打热线电话等,都属于自愿样本自愿样本与抽样的随机性无关样本是有偏的不能依据样本的信息推断总体,非概率抽样的类型,(4)滚雪球抽样先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。这个过程持续下去,就会形成滚雪球效应适合于对稀少群体和特定群体研究优点:容易找到那些
14、属于特定群体的被调查者,调查的成本也比较低,非概率抽样的类型,(5)配额抽样先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位操作简单,可以保证总体中不同类别的单位都能包括在所抽的样本之中,使得样本的结构和总体的结构类似抽取具体样本单位时,不是依据随机原则,属于非概率抽样,概率抽样 V.S.非概率抽样,概率抽样依据随机原则抽选样本样本统计量的理论分布存在可根据调查的结果推断总体非概率抽样不是依据随机原则抽选样本样本统计量的分布是不确定的无法使用样本的结果推断总体注意:教材后面章节中若为特别说明,样本均是通过概率抽样中的简单随机抽样方式获取
15、的。,第3章 数据的图表展示,复习要点 品质数据的整理与图示:表及图数值型数据的整理与图示:时间序列数据:线图多变量数据:雷达图、气泡图等,分类数据的图示条形图,分类数据的图示饼图,环形图,数值型数据-直方图,某电脑公司销售量分布的直方图,我一眼就看出来了,销售量在170180之间的天数最多!,数值型数据茎叶图,某电脑公司销售量分布的茎叶图,数值型数据箱线图,时间序列数据线图,两个变量间的关系二维散点图(2D Scatterplots),三个变量间的关系气泡图(bubble chart),显示三个变量之间的关系图中数据点的大小依赖于第三个变量,多变量数据雷达图,数据类型及图示,第4章 数据的概
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 复习
链接地址:https://www.desk33.com/p-342546.html