第5章正态分布.ppt
1,第五章:正态分布,1、标准正态分布2、常用统计分布3、大数定理与中心极限定理,2,学习目标,掌握正态分布的特性;正态分布曲线下面积的含义;标准分的计算和应用;利用标准正态分布表计算概率。理解大数定理和中心极限定理,3,从“分布”说起,一、什么是正态分布?,4,直方图用长条的面积来表示频次或相对频次;折线图用直线连接直方图中条形顶端的中点;当组距逐渐减小时,折线将逐渐平滑为曲线。,5,峰点(Peak)研究(P40),单峰,多峰,6,几种常见的频数分布曲线,7,一、正态分布曲线,8,1.1 什么是正态分布?,1、由德国数学家高斯提出,也叫高斯分布;2、自然界、社会经济生活中大量存在的分布规律;3、经典统计推断的基础;4、在所有的分布中,正态分布居于首要位置;,9,1.2 正态分布的基本特征,特征一:一个高峰特征二:一条对称轴特征三:一条渐近线,M0Md=,众值=中位值均值,10,1.3 正态分布的数学表达式,(x)=随机变量 X 的频次(概率密度)总体标准差;=总体方差=总体均值=3.14159;e=2.71828x=随机变量的取值(-x),11,1.4 两个参数的影响(,),均 值,标准差,12,1.4.1 对正态曲线的影响,1 2 3,13,1.4.2 对正态曲线的影响,曲线A和B的比较,14,正态曲线的位置由均值 决定;正态曲线的形状“高,矮,胖,瘦”的特点由标准差 决定;,15,二、正态曲线下的面积,2.1 正态曲线下面积的涵义随机变量的频次总和;一般把正态曲线下的总面积约等于1,这时一定区间内的频次分布表现为概率分布。,16,2.2 正态曲线的一个重要性质,无论正态曲线具有哪种均值和标准差,在均值和横坐标某一点的距离内(用标准差来表示)曲线下的面积是常数。下图说明此意。,17,正态曲线下的面积(图),-,+,95.46%,68.26%,18,2.3 几个典型取值区间的概率值,P(-+)=0.6827;P(-2+2)=0.9545;P(-3+3)=0.9973;,19,三、标准正态分布,3.1 什么是标准正态分布 以标准差为单位的正态分布一般称为标准正态分布(standardized normal distribution),20,3.2 标准正态分布的重要性,简化统计分析 一般的正态分布取决于均值和标准差;计算概率时,每一个正态分布都需要有自己的正态概率分布表,这种表格是无穷多的 若能将一般的正态分布转化为标准正态分布,计算概率时只需要查一张表,21,3.3 标准分(Standard scores),公式:,Z值代表每个X值在标准正态分布上的数值。,22,3.4 标准正态分布的表达式,正态分布的表达式为:N(,)标准正态分布的表达式为:N(0,1)标准正态分布是一般正态分布的特例,即0,1的正态分布。,23,3.5 标准分的实际意义,各总体之间可以通过标准分进行合理的比较不同总体间综合指标的比较,24,3.7 标准正态分布的面积,P(-1 Z 1)=0.6827;P(-2 Z 2)=0.9545;P(-3 Z 3)=0.9973;由于标准正态分布N(0,1)的图形是唯一的,因此使用标准正态分布无须自己计算,只需要学会查表就行了。,25,四、标准正态分布表的使用,4.1 标准正态分布表的介绍,26,4.2标准正态分布的计算,【例5】已知服从标准正态分布N(0,1),求P(1.3)=?解:因为 服从标准正态分布N(0,1),可直接查附表4,根据z=1.3,有 P(1.3)=1.3=0.9032,Xi:大写,小写读作:克西,27,【例6】:,已知服从标准正态分布N(0,1),求P(1.3)=?解:因为 1,而 P(1.3)P(1.3)1因此有P(1.3)1 P(1.3)1 1.30.0968,28,【例7】,已知服从标准正态分布N(0,1),求P(1.3)=?解:附表四中没有给出Z0的 Z值。根据标准正态分布图形是以Z0为对称的原理,P(1.3)=1 1.30.0968,29,【例8】,已知服从标准正态分布N(0,1),求P(1.3 2.3)?解:P(1.3 2.3)2.3 1.3=0.98930.9032=0.0861,30,【例9】,已知服从标准正态分布N(0,1),求满足P()0.05 中的值解:P()P()+(-)2 P()=2(1-)=0.05=1-0.025=0.975查表得,=1.96,31,【例10】,根据统计,北京市初婚年龄服从正态分布。其均值为25岁,标准差为5岁,问25岁到30岁之间结婚的人,其百分比为多少?解:1.年龄换为标准分:Z1,Z22.查表得 Z1 0.50,Z2 0.8413 Z2-Z1=0.3413,所以25岁到30岁之间结婚的人,百分数为34.13%.,32,4.3 标准正态分布表的使用,1.通过标准分公式,将一般为正态分布转换为标准正态分布;2.计算概率时,查标准正态分布表;3.对于负的 x,可由(-x)x得到;4.对于标准正态分布,即XN(0,1),有P(a X b)b aP(|X|a)2 a 1,33,常用的标准值,Z 1.65,概率P为0.05;Z 1.96,概率P为0.025;Z 2.58,概率P为0.005;,34,二项分布的正态近似法 通过前面的讨论,我们已经知道二项分布受成功事件概率p和重复次数n两个参数的影响,只要确定了p和n,二项分布也随之确定了。但是,二项分布的应用价值实际上受到了n的很大限制。也就是说,只有当n较小时,我们才能比较方便地计算二项分布。所幸的是,二项分布是以正态分布为极限的。所以当n很大时,只要p或q不近于零,我们就可以用正态近似来解决二项分布的计算问题。即以n p、n p q2,将B(x;n,p)视为N(n p,n p q)进行计算。在社会统计中,当n 30,n p、n q均不小于5时,对二项分布作正态近似是可靠的。,35,常见的抽样分布,(一)分布 设 是独立同分布的随机变量,且每个随机变量都服从标准正态分布,即(0,1),则随机变量=的分布称为自由度为 的 分布,记作()。当 时,分布趋近于正态分布,即()(,2)。,36,卡方分布,卡方分布是一种连续型随机变量的概率分布,主要用于列联表检验。1.数学形式 设随机变量X1,X2,Xk,相互独立,且都服从同一的正态分布N(,2)。那么,我们可以先把它们变为标准正态变量Z1,Z2,Zk,k个独立标准正态变量的平方和被定义为卡方分布(分布)的随机变量(读作卡方),且,我们把随机变量 的概率分布称为 分布,其概率密度记作。其中k为卡方分布的自由度,它表示定义式中独立变量的个数。,37,关于卡方分布的分布函数,附表7对不同的自由度k及不同的临界概率(01),给出了满足下面概率式的 的值(参见图)。,注意 写法的含义:它表示自由度为k的卡方分布,当其分布函数 时,其随机变量 的临界值(参见图)。具体来说,在假设检验中,它表示在显著性水平上卡方分布随机变量 的临界值。,38,解 查卡方分布表(附表7)得,例 试求下列各值:,例 已知k5,15,求临界概率。解 查卡方分布表,在表中自由度为5的横行中找到与15最接近的数值是15086,得到的近似值为001。由此可知 001,39,式中:2代表总体方差,自由度为nl。,2.卡方分布的性质(1)恒为正值。(2)卡方分布的期望值 是自由度k,方差 为2k。卡方分布取决于自由度k,每一个可能的自由度对应一个具体的卡方分布。卡方分布只与自由度有关,这就给卡方分布的实际应用带来很大方便。分布由正态分布导出,但它之所以与正态分布的参数和无关,是因为标准正态变量Z与原来的参数无关。(3)卡方分布具有可加性(4)利用卡方分布可以推出样本方差 S2 的分布,40,所以,样本方差S 2落在33和87之间的概率约为90。,3.样本方差的抽样分布 例 由一正态总体抽出容量为25的一随机样本,已知26,求样本方差S 2在33到87之间的概率。解 已知n25,26,由 得,41,常见的抽样分布,(二)分布 设随机变量 与 相互独立,(0,1),(),则称随机变量 服从自由度为 的 分布,记作()。当 时,分布趋近于标准正态分布。实际应用中,当 30时,分布可用标准正态分布近似。,42,常见的抽样分布,(三)分布 1.设随机变量 与 相互独立,且分别服从自由度为、的 分布,则称随机变量 服从第一自由度为、第二自由度 为 的 分布,记作(,)。2.分布对于两个总体的方差比的统计推断问题十分重要,是方差分析等统计推断方法的基础。与前两种分布不同的是 分布不以正态分布为其极限分布,它总是一个正偏分布。,43,F 分布,F 分布是连续性随机变量的另一种重要的小样本分布,可用来检验两个总体的方差是否相等,多个总体的均值是否相等。还是方差分析和正交设计的理论基础。1.数学形式 设 和 相互独立,那么随机变量,服从自由度为(k1,k2)的F分布。其中,分子上的自由度k1叫做第一自由度,分母上的自由度k2叫做第二自由度。,44,我们把随机变量F的概率分布称为F分布,其概率密度记作。本书附表8,对不同自由度(k1,k2)及不同的临界概率(01),给出满足下列概率式的F(k1,k2)的值(参见图)。,注意 写法的含义:它表示自由度为(k1,k2)的F分布,当其分布函数 时,其随机变量 F 的临界值(参见图)。具体来说,在假设检验中,它表示在显著性水平上F分布随机变量 F 的临界值。,45,例 试求下列各值:,如果 和 是两个独立随机样本的方差,样本来源于具有相同方差2的两个正态总体,样本容量分别为n1和n2,那么根据(822)式,随机变量F 服从于自由度为(n11和n21)的F分布。,解查F分布表(附表8)得,46,2.F分布性质,(1)随机变量F恒为正值,F分布也是一个连续的非对称分布。(2)分布具有一定程度的反对称性。(3)F分布的期望值与变异数(方差),47,五、大数定理和中心极限定理,5.1 极限定理 简单讲,凡是采用极限的方法(例如,观察次数n趋于无限)所得出的一系列定理统称极限定理。极限定理分为两类:大数定理(Law of large numbers)中心极限定理(Central limit theorem),48,一旦统计的学习进入到推论统计,我们就必须同时与三种不同的分布概念打交道,即总体分布、样本分布、抽样分布。为了不产生混淆,视分布不同,将统计指标的符号加以区别是完全必要的。对那些反映标志值集中趋势和离中趋势的综合指标,尤其对均值和标准差(或方差)。,抽样分布特指样本统计量作为随机变量的概率分布。用数学语言来说,抽样分布是运用数理统计的方法,把具体概率赋予样本的所有可能结果的一种理论分布。,在一个总体中可以产生无数个样本,所以样本统计量(比如均值)必定是随机变量。这样就提出一个问题:如果样本统计量作为随机变量,它的概率分布是什么样呢?,49,1中心极限定理 我们知道,概率论中用来阐明大量随机现象平均结果的稳定性的定理,是著名的大数定理。其具体内容是:频率稳定于概率,平均值稳定于期望值。但是,大量随机现象的稳定性不仅表现在平均结果上,同时也表现在分布上,这就是中心极限定理所要阐明的内容。显然,推论统计需要有一座能够架通抽样调查和抽样分布的桥梁。中心极限定理告诉我们:如果从任何一个具有均值和方差2的总体(可以具有任何分布形式)中重复抽取容量为n的随机样本,那么当n变得很大时,样本均值的抽样分布接近正态,并具有均值和方差。,50,(2)由于抽样分布的标准差要比总体标准差小,并且,所以如右图所示,样本容量越大,抽样分布的峰态愈陡峭,由样本结果来推断总体参数的可靠性也随之提高。,无疑,中心极限定理大大拓展了正态分布的适用面,同时我们得到了以下重要信息:(1)虽然样本的均值可能和总体均值有差别,但我们可期望这些将聚集在的周围。因此均值抽样分布的算术平均数能和总体的均值很好地重合,这就是为什么总体均值和抽样分布的均值用同一个来表示的缘故。,51,5.2 大数定理,【例子】掷一颗均匀的正六面体的骰子,出现幺点的概率是16,在掷的次数比较少时,出现幺点的频率可能与16相差得很大,但是在掷的次数很多时,出现幺点的频率接近16几乎是必然的。,52,5.2 大数定理,【例子】从扑克牌盒中取出一张牌,出现牌“K”的概率是1/13,在取的次数比较少时,出现“K”的频率可能与1/13相差得很大,但是在取的次数很多时,出现“K”的频率接近1/13几乎是必然的。,53,5.2 大数定理,这些例子说明,在大量随机现象中,不仅看到了随机事件频率的稳定性,而且还看到平均结果的稳定性。这就是概率论中大数定理的概念。阐明大量随机现象平均结果的稳定性的一系列定理。著名的大数定理:贝努里大数定理和切贝谢夫大数定理,54,5.2.1 贝努里大数定理,多次重复试验,随机事件的频率日趋稳定,具有接近概率的趋势。,55,5.2.2 切贝谢夫大数定理,多次重复试验,随机变量的平均值接近数学期望(即总体均值)。,56,5.3 中心极限定理,任何变量,不管其原有分布如何,如果把它们n 个加在一起,只要n足够大,其和的分布必然接近正态分布,均值的分布也接近正态分布。,57,如果一个现实的量是由大量独立偶然的因素的影响叠加而得,且其中每一个偶然因素的影响又是均匀地微小的话,可以断定这个量将近似地服从正态分布。这就解释了为什么在自然、社会、经济领域里大量存在服从正态分布的随机变量。例如,身高、体重、智商、婚龄等等,因为影响它们的因素都是大量的。,为什么社会经济生活、自然界存在许多随机变量的分布都服从正态分布?请结合中心极限定理来解释。,