统计学原理课件.ppt
统计学原理 课件,学习要求:,1、任何课程的知识都具有连贯性,所以不要经常逃课,更不能让教材“一尘不染”。2、听课时要多作笔记,笔记是知识的框架,教材是对知识的充实。二者缺一不可。3、对于老师布置的习题,要认真完成,以巩固所学的知识。4、对于学过的内容,要及时掌握,否则“积重难返”,可能会在考试时取得60分以下的成绩。5、注意结论成立的条件6、关注现实社会生活,理论与实践相结合,目 录,第 一 章 导 论第二章 统计数据的调查与收集第三章 统计数据的整理第 四 章 数据分布特征的描述 第 五 章 时 间 序 列 分 析第 六 章 统 计 指 数 第 七 章 抽 样 与 抽 样 估 计第 八 章 假设检验与方差分析第九章 相关与回归分析第 十 章 常用国民经济核算指标分析,第 一 章 导 论,学习目的及重难点提示,本章学习目的 了解统计理论和实践活动的产生和发展。领会统计的三层含义、统计学的分科。理解和掌握统计学中的几个基本范畴。,章节地位及重难点提示 本章介绍统计学及相关概念,勾勒了本课程的框架结构描述统计学和推断统计学。重点是统计的三层含义,总体、样本及指标等概念。,第 一 节 统计学的产生和发展,一、统计的三层含义及相互关系*,(一)统计工作(统计的基本含义)(二)统计资料(三)统计学(四)三者关系,即统计实践活动,是人们对客观事物的数据资料进行搜集、整理、分析的工作活动的总称。,是统计工作的成果,包括各种统计报表、统计图形及文字资料等。,是一门收集、整理、描述、显示和分析统计数据的方法论的科学,其目的是探索事物的内在数量规律性,以达到对客观事物的科学认识。,二、统计实践活动的产生与发展*,(一)统计的起源 1.起源于原始社会末期。2.人类社会早期的统计实践活动。(二)统计的发展 1.资本主义社会里统计实践活动得到较快的发展。2.1853年在比利时首都布鲁塞尔召开了第一届国际统计会议。3.1995年8月在北京召开了第50届国际统计年会。,三、统计科学的发展,(一)古典统计学时期(17世纪中后期18世纪中后期)1.政治算术学派:代表人物威廉配第(政治经济学之父),首次运用数量对比分析法,又称“有名无实”的统计学。2.记述学派/国势学派:“统计学是研究一国或多国的显著事项之学”,以文字描述为主,又称“有实无名”的统计学。3.图表学派:用统计图和统计表表现和保存统计资料。,三、统计科学的发展,(二)近代统计学时期(18世纪末19世纪末)1.数理统计学派:创始人阿道夫凯特勒,第一次将概率论引入社会经济现象的研究中,被誉为“近代统计学之父”。2.社会统计学派:代表人物恩格尔,采用大量观察法研究社会经济现象总体。,三、统计科学的发展,(三)现代统计学时期(20世纪初至今)1.主要成果:在随机抽样基础上建立了推断统计学。2.数理统计学的发展特点与趋势(1)数学方法的广泛应用。(2)边缘统计学的形成。(3)借助计算机手段,统计学的应用日益广泛和深入。,第二节 统计学的分科,一、从统计方法的构成角度分*,(一)描述统计学(descriptive statistics)研究如何取得、整理和表现数据资料,进而通过综合、概括与分析反映客观现象的数量特征。包括数据的收集与整理、数据的显示方法、数据分布特征的描述与分析方法等。(二)推断统计学(inferential statistics)研究如何根据样本数据去推断总体数量特征的方法。包括抽样估计、假设检验、方差分析及相关和回归分析等。(三)描述统计学和推断统计学的关系 描述统计学是统计学的基础和统计研究工作的前提,推断统计学则是现代统计学的核心和统计工作的关键。,二、从统计方法的研究和应用角度分,(一)理论统计学(theoretical statistics)利用数学原理研究统计学的一般理论和方法的统计学,如概率论与数理统计(二)应用统计学(applied statistics)*研究如何应用统计方法解决实际问题,大多是以数理统计为基础形成的边缘学科。如自然科学领域的生物统计学、社会科学领域的社会经济统计学等。,三、统计学与其他学科的关系,(一)统计学与哲学的关系 哲学为统计学提供世界观和方法论的指导。(二)统计学与数学的关系 1.区别(1)研究对象不同:数学研究抽象的量,统计研究具体的量。(2)研究方法不同:数学是演绎,统计是归纳和演绎的结合。2.联系 数学为统计研究提供数学公式、模型和分析方法。,三、统计学与其他学科的关系,(三)统计学与其他学科的关系 统计几乎与所有学科都有联系,本书侧重介绍统计与管理学和经济学的关系。,本教材的篇章结构,第一章 导论第一篇 统计基础篇 第二章 统计数据的调查与收集第二篇 描述统计篇 动态数据描述法 第七章 抽样与抽样估计 第三篇 推断统计篇 第八章 假设检验与方差分析 第九章 相关与回归分析第四篇 统计常识篇第十章,第三章 统计 数据的整理 第四章 数据分布特征的描述,第五章 时间序列分析第六章 统计指数,本章小结,一、统计的三层含义:统计工作、统计资料和统计学。二、统计学的分科(一)从统计方法的构成看,分为描述统计学和推断统计学。(二)从统计方法的研究和应用看,分为理论统计学和应用统计学。四、统计学中的基本概念(一)总体、总体单位和样本。(二)指标和指标体系。,END,第二章 统计数据的调查与收集,学习目的及重难点提示,本章学习目的 了解统计调查的概念和分类。领会统计数据的计量尺度、数据和变量的类型。明确统计调查方案的设计内容。掌握统计数据的来源、统计调查组织方式。本章重难点提示 重点:数据的计量尺度、数据和变量的类型,普查、抽样调查等统计调查组织形式。难点:数据的计量尺度、数据和计量尺度之间的关系。,第 一 节 数 据 的 计 量 与 类 型,一、数据的计量尺度*,(一)定类尺度(nominal scale)1.概念:又称列名尺度或类别尺度,是按照研究对象的某种属性将其划分为若干组或类的一种测度。2.举例:人的性别、籍贯、民族、职称;企业的所有制性质、行业隶属。3.特征(1)只能区分事物的类别,无法比较优劣或大小。(2)对事物的区分必须遵循穷尽和互斥的原则。(3)对定类尺度计量分析的统计量主要是频数和频率。*应用:想一想生活中还有哪些常见的定类尺度?,一、数据的计量尺度,(二)定序尺度(ordinal scale)1.概念:又称顺序尺度,它是对事物之间等级或顺序差别的一种测度。2.举例:教师的职称、学历,商品的质量等级等。3.特征(1)对事物可以分类、比较优劣和大小。(2)对事物的分类要求穷尽和互斥。(3)对定序尺度计量分析的统计量除频数和频率外,还有累计频数和累计频率。*应用:想一想生活中还有哪些常见的定序尺度?,一、数据的计量尺度,(三)定距尺度(interval scale)1.概念:又称间隔尺度,是对事物类别或次序之间的间隔进行的一种测度。2.举例:学生的考试成绩、人的身高、温度等。3.特征(1)能分类、排序、比较大小,计量差距。(2)没有绝对零点,“0”表示“0”水平,不表示“没有”或“不存在”。*应用:还有哪些常见的定距尺度?,一、数据的计量尺度,(四)定比尺度(ratio scale)1.概念:也称比率尺度,是对事物之间比值的一种测度。2.举例:人的收入支出、企业的产值利润、某地区的人口总数、失业人数等 3.特征(1)分类、排序、比较大小、求出差异、计算两个数值之间的比率。(2)具有绝对零点,即数字“0”表示“没有”或“不存在”。*应用:举一现实生活中的例子说明定比尺度的两个特征。,表2-1 四种计量尺度的比较,二、数据的类型,(一)数据的类型和表现形式 1.定性数据(品质数据)(1)概念:说明事物的品质特征,不能以数值表示,只能以文字表述,由定类和定序尺度计量形成。(2)举例:高校教师职称有助教、讲师、教授等。2.定量数据(数量数据)(1)概念:说明现象的数量特征,以数值表示。由定距和定比尺度计量形成。(2)举例:考试成绩80分、95分、100分,身高1.73米、1.80米等。*应用:举例说明还有哪些常见的定性数据和定量数据。,(二)变量及其类型,1.变量的含义 说明现象某种属性或数量特征的概念称为变量。统计数据就是变量的具体表现。2.变量的类型(1)品质变量:反映事物品质特征的名称,表现为定性数据。如教师职称。(2)数值变量:反映事物数量特征的名称,表现为定量数据。如人的身高。3.数值变量的分类(1)离散变量:只能间断计数的变量。如人口数、设备台数等。(2)连续变量:可以连续计数的变量。如产值、利润、收入、年龄等。,第 二 节 数据的直接来源统计调查,一、统计调查的概念和分类,(一)概念 根据统计的目的和任务,运用科学的调查方法,有计划、有组织地向客观实际搜集和登记统计数据的过程。(二)分类 1.按调查对象包括的范围不同(1)全面调查:对调查对象的全部个体一一调查登记,如普查。(2)非全面调查:对调查对象的部分个体调查登记,如抽样调查。,统计调查的分类,2.按照调查组织方式不同(1)统计报表:经常性制度化的调查,是搜集国民经济统计数据的主要方式。(2)专门调查:为研究一些特殊问题专门组织的统计调查。3.按照调查登记的时间是否连续(1)经常性调查/连续性调查:适用于时期现象的调查。(2)一次性调查/间断性调查:适用于时点现象的调查。,二、统计调查方法,(一)直接观察法(二)报告法:如我国的统计报表制度。(三)采访法:具体分为个别口头询问、被调查者填表、开调查会等形式。(四)通讯法:通过邮寄调查问卷、被调查者填表获取信息。(五)电话访问(六)网上调查法,三、对统计调查数据的基本要求,(一)准确性(二)及时性(三)系统性(四)完整性(五)经济性 总体要求:以准确为前提,准中求快,力争以较少的投入取得完整、系统的数据资料。,四、统计调查方案的设计*,(一)确定调查的目的和任务(为什么调查)这是设计方案的首要问题。(二)确定调查对象和调查单位(向谁调查)1.调查对象:需要进行调查的某一社会经济现象的总体。对应于统计总体。2.调查单位:调查对象中需要调查的具体单位。对应于总体单位。,四、统计调查方案的设计,(三)确定调查项目(调查什么)(四)设计调查表(调查问卷如何设计)(五)确定调查时间*调查数据资料所属的时间 调查时限,调查工作的起讫时间(六)制定调查组织实施计划,两层含义,五、统计调查的组织方式,(一)普查 1.概念:是专门组织的、一次性的全面调查。2.意义及原则*相关链接我国的普查制度 每逢末尾数字为“0”的年份进行人口普查。每逢末尾数字为“1”或“6”的年份进行基本统计单位普查。每逢末尾数字为“3”的年份进行第三产业普查。每逢末尾数字为“5”的年份进行工业普查。每逢末尾数字为“7”的年份进行农业普查。,五、统计调查的组织方式,(二)统计报表 1.概念:我国的统计报表制度是依照中华人民共和国统计法的规定,自上而下统一布置,自下而上逐级提供基本统计数据的一种调查方式。2.意义:是搜集国民经济和社会发展状况统计数据的主要方式。3.局限性:,五、统计调查的组织方式,(三)抽样调查*1.概念:是专门组织的非全面调查。它是按照随机原则从总体中抽取部分单位组成样本,以样本数据推断总体数量特征。2.意义:是相对最科学、应用最广的调查方式。3.特点:(1)经济性高。(2)时效性强。(3)适应面广。(4)准确度高。,五、统计调查的组织方式,(三)抽样调查*4.抽样调查的作用(应用场合)(1)不可能或很难进行全面调查的现象,必须采取抽样调查方法。(2)没必要进行全面调查的社会现象,也可采用抽样调查。(3)其他作用:如对生产过程的质量控制及对全面调查结果的检验修正。*思考题:对河水水质进行检测、推断种子的发芽率、推断食品的保质期应采用什么调查方式?为什么?,五、统计调查的组织方式,(四)重点调查*1.概念:在调查对象中选择一部分重点单位所进行的非全面调查。2.重点单位:是指在总体中虽然个数不多,但它们的数据总量在总体数据总量中占绝大部分比重。*相关链接:我国银行业中的重点单位 截至2004年底,工、农、中、建四家国有商业银行各项贷款近13万亿元,占我国银行业贷款总额的72,存款近25万亿元,占银行业存款总额的77。从统计学的角度,四大国有商业银行就是重点调查中的重点单位。,五、统计调查的组织方式,(五)典型调查*1.概念:在对调查对象全面分析的基础上,有意识地选择若干有典型意义或有代表性的单位进行深入、细致调查的一种非全面调查方式。2.特点(1)调查范围小,调查单位少,可对某些复杂的专门问题进行深入、细致的调查。(2)调查单位是有意识选择的有代表性和典型性的单位。3.典型调查的关键:选择典型单位。,第 三 节 统 计 数 据 的 间 接 来 源,一、公开的统计出版物,(一)我国官方的统计公开出版物 如中国统计出版社出版:中国统计年鉴、中国统计摘要、中国社会统计年鉴、中国工业统计年鉴、中国农村统计年鉴、中国人口统计年鉴、中国市场统计年鉴等。(二)外文出版物 世界银行各年度的世界发展报告、联合国的联合国统计年鉴、联合国粮农组织生产年鉴、国际货币基金组织的国际金融统计月报、亚太经合组织的亚太统计数字等。,二、其他渠道,各种报纸、杂志、图书、广播、电视传媒、网络等,本 章 小 结,复习小结,一、统计数据的计量尺度(一)定类尺度(二)定序尺度(三)定距尺度(四)定比尺度二、统计数据的类型(一)定性数据:由定类和定序尺度计量而成,反映事物的品质特征。(二)定量数据:由定距和定比尺度计量而成,反映事物的数量特征。,复习小结,三、统计数据的来源(一)直接来源:统计调查和科学试验。(二)间接来源:引用他人调查或试验的数据。四、统计调查(数据最主要的直接来源)(一)统计调查的种类和方法(二)统计调查方案的设计(三)统计调查的组织方式:有普查、统计报表、抽样调查等,其中重点调查是最常用的最科学的调查方法。五、统计数据的间接来源 包括公开的统计出版物和其他渠道。,END,第三章 统计数据的整理,学习目的及重难点提示,本章学习目的 了解数据整理在统计活动中的地位、数据整理的内容、数据审核与汇总的技术。领会统计分组的概念、关键、统计分组体系及次数分布的类型和特征。明确统计数据的表现形式统计表和统计图的基本内容。掌握统计分组、分配数列和统计图表的编绘制方法。本章重难点提示 本章重点:统计分组、变量数列的编制、统计数据的显示方法统计表和统计图。本章难点:统计分组、变量数列的编制、次数分布图的绘制。,第一节 数据整理的一般问题,一、数据整理的概念和作用,(一)概念 对统计调查所搜集到的数据进行分类和汇总,使其系统化、条理化、科学化,以得出反映事物总体综合特征的资料的工作过程。(二)作用 统计数据整理,是统计调查的继续,也是统计分析的前提,承前启后,在整个统计工作中具有重要的作用。,二、数据整理的程序,数据整理方案的设计 数据的审核与检查 数据的排序 数据分组 数据的显示统计图表 数据的积累与保管,第二节 数据分组,一、数据分组的概念 根据统计研究目的和客观现象的内在特点,按照选定的某个或几个标志,将被研究的总体数据分成若干部分的科学分类。二、数据分组的作用(1)区分现象的类型。(2)反映总体的内部结构。(3)揭示现象之间的依存关系。(4)反映事物的数量特征和发展规律。,第二节 数据分组,三、数据分组的关键*选择分组标志和分组划分各组界限(针对数值型变量)。四、选择分组标志的原则*1.根据研究任务和目的选择分组标志。2.选择能反映事物本质特征或重要特征的标志。3.结合现象所处的历史条件和社会经济条件选择分组标志。,第二节 数据分组,(一)根据分组变量(标志)的性质不同 按品质变量分组 按数值变量分组(二)根据采用的分组标志的个数多少 简单分组:只按一个标志分组 复合分组:按两个或以上的标志分组,五、统计分组的种类,第 三 节 分配数列和次数分布,一、分配数列,(一)概念(二)分配数列的要素 组别 次数(频数):分布在各组的总体单位数。各组的 次数(频数)之和等于总体单位总数。频率(比重):各组次数占总次数的比重。各组比 重之和等于100%(或1)。,将总体按分组标志分组后形成的总体单位在各组的分布,又称次数分布数列或频数分布数列。,分配数列实例,表3-1 我国土地状况分组表,(三)分配数列的种类,1.按分组标志的性质不同 品质变量数列:按品质变量分组形成 数值变量数列:按数值变量分组形成 2.数值变量数列又可分为:单项数列:每组只有一个变量值的变量数列 组距数列:每组变量值是一段区间的变量数列 连续变量数列:按连续变量分组形成的数列 离散变量数列:按离散变量分组形成的数列,品质变量分配数列实例,表3-2 某高校在校生性别状况分组表,数值变量分配数列实例,表3-3 某市餐饮业按营业额分组,单项式变量数列实例,表3-4 某市居民家庭按家庭人口数分组,组距式变量数列实例,表3-5 某车间工人按月工资分组,1.概念术语(1)全距(R)数列中最大变量值最小变量值(2)组限:每一组的最大变量值与最小变量值 上限:每一组的最大变量值 下限:每一组的最小变量值(3)组距(d):每一组的最大变量值与最小变量值之差 组距=上限下限(4)组数:数列中的分组个数。,(四)分配数列的编制,定性关系:全距一定的情况下,组数和组距呈反方向变动。定量关系:式二为确定组距的经验公式,其中N代表组数。,组数和组距的关系,组数全距/组距=R/d,组距=R/(13.322lgN),(四)分配数列的编制,1.概念术语(5)频数(次数)与频率(比重)(6)品质数列与变量数列(7)等距数列与异距数列(8)次数密度:单位组距内分布的总体单位数。公式:,次数密度各组次数/各组组距,开口组:缺上限或缺下限的组 闭口组:上下限齐全的组(10)组中值及计算*闭口组 临近组组限重合时:组中值=(上限下限)/2 临近组组限间断时:组中值=(下限下组下限)/2 开口组 缺上限时:组中值=下限邻组组距/2 缺下限时:组中值=上限-邻组组距/2,1.概念术语,(9),(四)分配数列的编制,2.注意事项(1)组距最好为5或10的倍数。(2)最小组的下限略低于最小变量值,最大组的上限略高于最大变量值。(3)离散型变量分组,相邻组的组限可以间断,也可以重叠;连续型变量分组,相邻组的组限必须重叠。(4)组限重叠时,临界点的总体单位按“上限不在内”的原则归组。,(四)分配数列的编制,3.简单次数分布数列的编制步骤 数据排序并计算全距确定变量数列的形式(单项式或组距式)确定组数和组距 确定组限 计算各组次数和频率 绘制表格,简单次数分布数列的编制实例,例3-1数据资料 某车间40名工人日产零件如下:65 72 66 57 90 86 83 68 75 84 66 59 67 70 79 51 81 54 78 86 94 64 77 74 76 96 62 98 85 71 79 84 65 72 89 75,简单次数分布数列的编制实例,编制步骤之一数据排序并确定全距 将数据从低到高排列,形成如下变量序列:51 54 57 59 62 64 65 65 66 66 67 68 70 71 72 72 74 75 75 76 76 77 78 78 79 81 83 84 84 84 85 86 86 88 89 90 93 94 96 98 计算全距=98-51=47 编制步骤之二确定变量数列的形式 因变量值较多、变动幅度较大,适宜采用组距式数列。,简单次数分布数列的编制实例,编制步骤之三确定组数和组距 分析 全距为47,分为5组,组距为10。编制步骤之四确定组限 分析 离散型变量分组,相邻组的组限可以重叠,也可间断,本例选择重叠。编制步骤之五计算各组的频数和频率 分析 根据排序后的变量序列清点各数据区间的频数并计算比重,也可利用Excel统计软件进行。,简单次数分布数列的编制实例,编制步骤之六绘制表格 表3-6 某车间工人日产零件分组表,4.累计次数分布表(图)的编制,(1)累计次数和累计频率反映总体单位分布特征的指标,用以说明总体中在某一变量值水平上下总共包含的总体单位次数和频率。(2)累计次数和频率的计算方法向上累计:是将各组的次数和频率,由变量值低的组向高的组累计。说明各组上限以下包含的总体单位数和比率。向下累计:是将各组的次数和频率,由变量值高的组向低的组累计。说明各组下限以上包含的总体单位数和比率。,累计次数分布数列的编制实例,例3-2 根据例3-1编制的累计次数分布表如下:,表3-7 某车间工人日产零件累计分组表,二、次数分布,社会经济现象的分布主要有以下三种类型:(一)钟形分布/丘形分布 1.含义:特点是“两头小,中间大”,即越靠近中间的变量值分布次数愈多;愈远离变量值中点分布的次数愈少,形态如钟或山丘。正态分布:左右两侧对称分布 2.种类 左偏分布:存在极小变量值时曲线向左偏的 偏态分布 非对称分布 右偏分布:存在极大变量值时曲线向右偏的 非对称分布 正态分布 左偏分布 右偏分布,二、次数分布,(二)U形分布:是指较大和较小的变量值出现的次数多,而中间变量值出现的次数少,特点是“两头大,中间小”。(三)J形分布:J形分布的特征是“一边大,一边小”。即次数随着变量值的变化大多数集中在某一端的分布。其曲线形如英文字母的“J”字,具体有正J形分布和反J形分布两种类型。U形分布 正J形分布 反J形分布*思考题:以下现象的次数分布符合哪种分布的特征?A 人群中身高、体重的分布 B 学生考试成绩的分布 C 按人口年龄分布的死亡率 D 餐饮企业销售额的分布,第四节 统计图表,(一)统计表的概念(二)统计表的结构 1.从形式上看:分为总标题、横行标题、纵栏标题和统计数值。2.从内容上看:分为主词和宾词。(三)统计表的种类 简单表:主词未做任何分组。简单分组表:主词按一个标志分组。复合分组表:主词按两个或以上的标志分组。(四)统计表的编制规则,一、统计表,(一)概念 条形图(二)种类 直方图和折线图 圆形图,二、统计图,统计表示例 某居民小区家庭按月收入简单分组表,统计图示例条形图用长短或高矮来显示数值的大小,统计图示例折线图将直方图的各条形中点用线连接起来而得到。,统计图示例圆形图/饼图:是以圆形的分割来表示总体的分组及结构。(某居民小区家庭按月收入分组情况),本章小结,一、统计数据整理 统计数据整理是统计数据调查的继续和数据分析的前提,是感性认识上升到理性认识的连接点。数据整理的前提是审核,分组汇总是核心。按品质变量分组的关键是界定各类型组的性质差异,按数值变量分组的关键是正确确定各组的数量界限,即组数与组限。二、统计分组 统计分组必须遵循穷尽性和互斥性两个原则。数值变量分组有单项式和组距式两种。组距式分组又有离散型与连续型、等距与异距分组之分,对于组距式分组要计算组距、组数、组中值。,本章小结,三、分配数列/次数分布数列 由两个要素构成,一是组别,二是各组次数或频率。根据需要,可以编制简单次数分布表和累计次数分布表。四、次数分布 主要有钟形分布、U形分布和J形分布。五、统计表和统计图 统计表和统计图是显示统计数据的两种重要形式。统计表的结构从形式看可分为总标题、横表目、纵标目和指标数值;从内容上看可分为主词和宾词两部分。统计图主要有条形图、直方图、圆形图等。,END,第 四 章 数据分布特征的描述,学习目的和重难点提示,本章学习目的领会数据分布的各种特征:集中趋势、离散趋势、偏斜程度和峰度。掌握数据分布特征各测定值的计算方法、特点及其应用场合。本章重难点提示 数据分布特征的描述方法,如何使用一些统计量来对数据进行概括性测定。数据分布特征各测定值的计算方法、特点及其应用场合。,第 一 节 数据分布集中趋势的测定,一、均值(平均数、数值平均数,mean),(一)概念 均值是反映数据分布集中趋势十分重要的数据,代表总体单位某一标志值的一般水平。(二)特征 1.具有抽象性。2.具有代表性。3.反映总体分布的集中趋势。(三)举例 1.某市中学生每周平均上网时间为2.8小时。2.某农贸市场2月份牛肉的平均价格为16元/千克。3.某地区“十五”期间经济平均增长率为9.6%。,(四)均值的种类及计算,1.算术平均数*(1)概念 算术平均数又称平均值,是用一组数据中所有值之和除以该组数据的个数。(2)基本公式,算术平均数的计算,*简单算术平均数:总体平均数 样本平均数,算术平均数的计算,*加权算术平均数 概念:是对每个数据都根据其在全组中的重要程度赋予一定权重后得到的算术平均数。计算公式:(1)未分组数据 其中,w表示各组的标志总量,而不是各组变量值出现的次数,总体和样本加权算术平均数的公式是相同。,例4-1根据某公司四个品牌数码相机的销售资料计算平均利润率。,表4-1 四个品牌数码相机的利润率和销售额资料,所以,四个品牌数码相机的平均销售利润率为:,因为:,*加权算术平均数,分组的加权平均数:根据分组数据计算均值。样本均值的计算公式:总体均值的计算公式:表示各组的变量值(组距式数列的组中值);表示各组变量值出现的频数(即权数)。,其中,,例4-2根据某电脑公司在各市场上销售量的分组数据,计算电脑销售量的均值。,2.调和平均数,(1)概念:调和平均数又称倒数平均数,是各个变量值倒数的算术平均数的倒数。(2)计算 简单调和平均数:针对未分组资料。计算公式为:,2.调和平均数,加权调和平均数:针对分组资料。计算公式为:其中:是一种特殊权数,它不是各组变量值出现的次数,表示各组标志总量。即,例4-3根据某商场职工月工资资料计算月平均工资。表4-3某商场职工月工资资料,3.几何平均数,(1)概念:几何平均数(geometric mean)又称对称平均数,它是各变量值乘积的n次方根。(2)计算 基本公式:对数公式:在实际工作中,由于变量个数较多,通常要应用对数来进行计算。即,(3)几何平均数的应用及特点,应用条件 a.变量值是相对数据,如比率或发展速度。b.变量值的连乘积等于总比率或总发展速度。特点 a.如果数列中有一个标志值等于零或负值,则无法计算。b.受极端值影响较小,故较稳健。,例4-4 某电器销售公司20002005年销售量的环比增长率分别为:7.6%、2.5%、0.6、2.7%和2.2%。求这期间销售量的平均增长速度。,表4-4 销售量平均发展速度计算表,几何平均数的计算示例,几何平均数的计算示例,1.采用基本公式计算的销售量平均发展速度为:2.采用对数公式计算的销售量平均发展速度为:所以,销售量的平均增长速度=103.1%-1=3.1%,二、位置平均数,(一)中位数(median)1.概念 中位数是将一组数据项按照数值大小升序或者降序排列后位于中间位置的那个数据,符号为。2.中位数的计算方法(1)未分组数据的中位数 将变量值按升序或降序排列,找中间位置的变量值。(2)单项数列的中位数 计算各组的累计频数(向上累计或向下累计);根据中位数位置确定中位数。,例4-5 计算某公司销售人员月销售冰箱中位数 表4-5 某公司销售人员月销售冰箱中位数计算,中位数的位置,即中位数在累计频数为40的那一组内(向上累计或向下累计均可得出),则。,2.中位数的计算方法,(3)组距数列的中位数:由下列公式近似计算 下限公式,其中:,为总体单位总数;,为中位数组的下限;,为中位数组以下的累计频数;,为中位数组的频数;,为中位数组的组距;,例4-6 求以下组距数列的中位数。,中位数的近似值为:,表4-6 某地区家庭收入分组,中位数的位置在第46(92/2)位,应在第二组,中位数的特点,是一种位置平均数,不受极端值及开口组的影响。对于分配不对称的数据,中位数比平均值更适合当集中趋势的代表值。对某些不具有数字特征或不能用数字测定的现象,可用中位数表示其一般水平。例如,对众多的消费者购买数码相机时,分别对价格、外观、品质的注重程度排序后,可以求出消费者在乎的中位数因素。,二、位置平均数,(二)众数 1.概念 众数(mode)是指在一组数中出现次数最多的那个数值,符号为。2.数据数列的众数分布情况 无众数 如数据数列:13 7 9 12 6 8 一个众数 如数据数列:6 5 9 8 6 6 多个众数 如数据数列:22 35 27 35 27 36,3.众数的计算方法,*品质变量的众数观察次数,出现次数最多的变量值就是众数。例如:企业的所有制结构分布、人口的城乡分布。*数值变量的众数 未分组资料观察次数,出现次数最多的数据就是众数。分组资料(1)单项式数列直接观察,次数最多的组的变量值即为众数。,例4-7单项式变量数列确定众数实例,表4-7 某市居民家庭按家庭人口数分组,由上表可以看出,家庭人口数为3人的家庭数最多,因此本例中家庭人口数的众数为3人。,3.众数的计算方法,组距数列计算众数:由下列公式近似计算:,其中,为众数组与前一组频数之差;,为众数组的下限;,为众数组与后一组频数之差;,为众数组的组距。,例4-8 组距式数列计算众数示例,其众数的近似值为:,表4-8 某地区的人均月收入调查数据,三、均值、中位数和众数的比较,(一)均值、中位数和众数的数量关系 1.当数据呈对称分布时,三者合而为一。2.当数据呈左偏分布时,说明数据存在极小值,必然拉动均值向极小值一方靠,则从左至右依次是均值、中位数和众数。3.当数据呈右偏分布时,说明数据存在极大值,必然拉动均值向极大值一方靠,则从左至右依次是众数、中位数和均值。,三、均值、中位数和众数的比较,(二)均值、众数和中位数的特点及应用场合*均值是对数值型数据的计算,利用了全部数据信息,具有优良的数学性质,是实际中应用最广泛的集中趋势测度值。*中位数是一组数据中间位置上的代表值,其特点是不受数据极端值的影响,主要适合于作为顺序数据的集中趋势测度值。*众数是一组数据分布的峰值,它也是一种位置代表值,不受极端值的影响,主要适合于作为分类数据的集中趋势测度值。,第 三 节 数据分布离散程度的测定,一、极差,(一)概念:又称全距,是数据中最大值和最小值之差。记为。(二)计算 1.未分组数据的极差为:表示数据的最大值;表示数据的最小值。2.分组数据的极差 极差最大组的上限最小组的下限 若存在开口组,则:最大组的上限前一组的上限组距 最小组的下限下一组的下限组距,其中:,(三)修正极差,1.概念:修正极差(modified range)是去掉极端值后的极差,又称四分位全距(IQR,inter quartile range),是中间50的数据的间距,即数据分布中第25个和第75个百分位数的间距,也即第1个和第3个四分位数的间距。2.公式:其中,Q3表示第3个四分位数,即第75个百分位数;Q1表示第1个四分位数,即第25百分位数。,二、平均差,(一)概念 平均差(mean absolute deviation,MAD)是各数据对平均数的离差绝对值的平均数。(二)样本平均差的计算公式 1.未分组数据:2.分组数据:,三、方差和标准差,(一)概念 方差(variance)是各变量值与其均值离差平方的平均数。标准差(standard deviation)是方差的平方根,又称“均方差”。(二)比较与评价 1.其内涵与平均差相似,均为各个数据对其平均数的平均离差。但平均差采用求绝对值消除正负离差,标准差采用平方法消除正负离差,在数学处理上标准差比平均差更为科学合理。2.方差和标准差是测度数值型数据离散程度的最主要的指标。,例4-9某电脑公司销售量分组数据如表4-7,计算销售量的方差和标准差 表4-7某电脑公司销售量分组数据,(三)总体方差和标准差计算示例,总体方差和标准差计算示例,根据公式计算可知总体均值为:总体方差为:总体标准差为:,例4-10 根据以下资料,计算企业职工平均工资的标准差。(已知平均工资为760元),表4-9 某企业职工工资分组数据表,总体方差和标准差计算示例,总体方差为:总体标准差为:,(四)样本方差和标准差,1.说明 在大多数统计应用中,都针对样本数据来分析总体数量特征。因此通常用样本方差来估计总体方差,用样本标准差来估计总体标准差。2.符号 样本容量用n 表示;样本方差用S2 表示;样本标准差用S 表示。3.计算公式 与总体方差和标准差公式类似,区别在于分母除以n-1。,四、离散系数,(一)概念:离散系数(coefficient of variation)也称变异系数,是一组数据的离散指标的绝对数与其相应的均值之比,是离散指标的相对数形式。(二)表现形式 有全距系数、平均差系数和标准差系数。最常用的是标准差系数。(三)计算公式,总体标准差系数,样本标准差系数,四、离散系数,(四)应用:用于比较不同总体数据分布的离散程度。例题4-11 甲乙企业职工的年均收入分别为20 000元和50 000元,收入的标准差分别为3 000和5 000元,哪家企业职工的收入差距小一些?分析 不同企业的年均收入不同,不能直接比较标准差,只能比较标准差系数。结论 乙企业职工收入差距小于甲企业。,甲企业标准差系数,乙企业标准差系数,第 四 节 数据分布偏态与峰态的测定,一、偏态及其测定,(一)偏态(skewness)是指数据分布的不对称性,其度量值称为偏态系数SK。(二)计算 未分组数据:分组数据:,是样本标准差的三次方。,一、偏态及其测定,(三)偏态系数大小的说明 偏态系数 SK 0,说明数据为对称分布。偏态系数 SK 0,说明数据为偏态分布。其中:SK 0 说明数据为正偏(右偏)分布;SK 0 说明数据为负偏(左偏)分布。,二、峰态及其测定,(一)峰态(kurtosis)是指正态分布数据的平峰或尖峰程度,其度量值为峰态系数。(二)峰态通常是与标准正态分布相比较而言的。若数据服从标准正态分布,则峰态系数0。若数据服从非标准正态分布,则峰态系数0。当峰态系数0时为尖峰分布,即比正态分布更尖。当峰态系数0时为平峰分布,即比正态分布偏平。,本章小结,1.数据集中趋势的测定介绍了各种均值、中位数、众数的概念和特点,比较了均值、中位数、众数的特点,重点介绍其计算方法和应用场合。2.数据离散程度的测定介绍了极差、平均差、方差、标准差、离散系数的概念和计算方法。重点是方差、标准差及标准差系数的计算。3.数据偏态与峰态的测定简单介绍了偏态和峰态的基本概念及测定方法。,END,第 五 章 时 间 序 列 分 析,本章学习目的了解时间序列的概念、种类、因素构成和编制原则。掌握水平指标和速度指标的计算方法、应用条件及指标间的相互关系。掌握长期趋势的分析测定方法。本章重难点提示重点:时间序列水平指标和速度指标的计算、最小平方法预测长期趋势。难点:季节比率法分析季节变动、最小平方法预测长期趋势。,学习目的及重难点提示,第 一 节 时 间 序 列 概 述,(一)定义 现象在不同时间上的一系列指标值按时间先后排列形成的数列,又称动态数列。(二)构成要素 现象所属的时间 指标数值(三)与分配数列的区别,一、时间序列的概念及构成要素,表5-1 19851991年我国原煤产量单位:亿吨,时间序列示例,(一)绝对数时间序列:由绝对指标排列形成。1.时期数列:由时期指标排列形成。特点:(1)时期数列中各指标值可以相加。(2)时期数列中各指标值大小与时间间隔正相关。(3)时期数列通过连续登记获取数据。2.时点数列:由时点指标排列形成。特点:(1)时点数列中各指标值不能相加。(2)时点数列中各指标值大小与时间间隔无关。(3)时点数列通过间断登记获取数据。,二、时间序列的种类,(二)相对数时间序列:由相对指标排列形成。特点:1.由两个绝对数数列相比形成。2.不同时期的相对指标数值不可直接相加。(三)平均数时间序列:由平均指标排列形成。特点:不同时期的平均指标数值不可直接相加。,二、时间序列的种类,基本原则可比性原则具体原则 1.时间长短应当一致。2.总体范围保持一致。3.指标的经济内容保持一致。4.指标的计算方法和计量单位保持一致。,三、时间序列的编制原则,第 二 节 时 间 序 列 的 水 平 分 析,一、发展水平,(一)概念:时间序列中