统计学基础知识.ppt
第一章 概率统计基础知识(中级),第一节 概率基础知识,一、事件与概率,(一)随机现象,随机现象,在一定条件下,并不总是出现相同结果的现象。,特点,随机现象的结果至少有两个,至于哪一个出现,人们事先并不知道,样本点,认识一个随机现象,首要的是能罗列出它的一切可能发生的基本结果。这里的基本结果是今后的抽样单元即样本点。,样本空间:记为,随机现象可能样本点的全部称为这个随机现象的样本空间。,(二)随机事件,事件(随机事件):随机现象的某些样本点组 成的集合。用大写英文字 母A、B、C表示。,随机事件的特征,随机事件的关系,包含:AB或BA,在一个随机现象中有两个事件A与B,若事件A中任一个样本点必在B中,则称A被包含在B中,或B包含A。,互不相容,在一个随机现象中有两个事件A与B,若事件A与B没有相同的样本点,则称A与B互不相容。,可推广到三个或更多个事件间的互不相容,相等:A=B即AB且BA,在一个随机现象中有两个事件A与B,若样本A与B含有相同的样本点,则称事件A与B相等。,例:A=(x,y):x+y=奇数,B=(x,y):x与y的奇偶性不同,则:,(三)事件的运算,事件运算,对立事件:A,在一个随机现象中,是样本空间,A为事件,则由在中而不在A中的样本点组成的事件称为A的对立事件,记。,事件A与B的并:AB,由事件A与B中所有样本点(相同的只计入一次)组成的新事件。称为A与B的并,发生意味着“事件A与B至少一个发生”,事件A与B的交:A B或AB,由事件A与B中公共的样本点组成的新事件称为事件A与B的交。发生意味着“事件A与B同时发生”,事件的并和交可推广到更多个事件上去。,事件A对B的差:A-B,由在事件A中而不在B中的样本点组成的新事件,称为A对B的差。,(a)A-B,(b)A-B(),事件运算性质:,交换律:,,结合律:,分配律:,对偶律:,可用维恩图验证,可推广到三个或三个以上事件的运算。,(四)事件的概率,概率事件发生可能性大小的度量,在一个随机现象中,用来表示任一随机事件A发生可能性大小的实数称为该事件的概率,记为P(A)。,概率是一个介于0和1之间的数,即0P(A)1;,必然事件的概率等于1,即P()=1;,不可能事件的概率等于0,即P()=0。,二、概率的古典定义与统计定义,(一)古典定义,所涉及的随机现象只有有限个样本点。如 共有n个样本点;每个样本点出现的可能性是相同的(等可 能性);假如被考察事件A含有K个样本点,则事件 A的概率定义为,(二)统计定义,与考察事件A有关的随机现象是可以大量 重复试验的;若在n次重复试验中,事件A发生Kn次,则 事件A发生的频率为:,fn(A)将会随着重复试验次数不断增加而趋 于稳定,这个频率的稳定值就是事件A的概 率。一般用重复次数n较大时的频率去近似 概率。,三、概率的性质及其运算法则,概率的性质:(可由概率的定义看出),性质1:对任意事件A,有0P(A)1;,性质2:,性质3:若AB,则P(A-B)=P(A)-P(B),性质4:P(AB)=P(A)+P(B)-P(AB),若A与B互不相容P(AB)=P(A)+P(B),性质5:对于多个互不相容事件A1,A2,有P(A1A2A3)=P(A1)+P()+p(A3)+;,四、条件概率与概率的乘法法则,(1)条件概率,两个事件A与B,在事件B已发生的条件下,事件A再发生的概率称为条件概率,记P(A/B)。计算公式:,性质6:对任意二个事件A与B,有,(2)独立性和独立事件的概率,相互独立:,设有两个事件A与B,假如其中一个事件的发生不影响另一个事件的发生与否,则称A事件与B事件相互独立。,性质7:,假如二个事件A与B相互独立,则A与B同时发生的概率为P(AB)=P(A)P(B),性质8:,假如二个事件A与B相互独立,则在事件B发生条件下,事件A的条件概率P(AB)等于事件A的(无条件)概率p(A),事件的相互独立可推广到三个或更多的事件 上去。,第二节 随机变量及其分布,一、随机变量,随机变量,用来表示随机现象结果的变量称为随机变量。常用大写字母X、Y、Z表示。,随机变量类型,离散随机变量,一个随机变量仅取数轴上有限个点或可列个点,则此随机变量为离散(型)随机变量。,连续随机变量,如一个随机变量的所有可能取值充满数轴上一个范围(a,b)或整个数轴,则此随机变量为连续(型)随机变量。,二、随机变量的分布,随机变量的分布,随机变量取值的统计规律性。,随机变量X的分布内容:,X可能取哪些值或在哪个区间上取值,X取这些值的概率各是多少?或X在任一小区间上取值的概率是多少?,(一)离散随机变量的分布,离散随机变量的分布可用分布列表示(离散分布),分布列,或用数学式表达:,P(X=Xi)=pi i=1,2n(p1+pn=1),pi也称为分布的概率函数,(二)连续随机变量的分布,用概率密度函数表示(简称分布),条件:,p(x)0,概率密度函数p(x)的各种形式,位置不同,散布不同,形状不同,其中p(x)在x0点的值p(x)不是概率,是高度。,注:纵轴原为“单位长度上的频率”,由频率的稳定性,可用概率代替频率,纵轴就成为“单位长度上的概率”即概率密度的概念,故最后形成的曲线称为概率密度曲线。,重要结论:,1X在区间(a,b)上取值的概率 p(aXb)为概率密度曲线以下区间(a,b)上的面积,即,P(ab)=,2.X在一点取值的概率为零,即,P(X=a)=0,故:P(axb)=P(axb),=P(aXb),=P(aXb),三、随机变量分布的均值、方差与标准差,均值:,用来表示分布的中心位置,用E(X)表示,方差:,用来表示分布的散布大小,用Var(x)表示,标准差:用表示,表示分布散布大小。,均值与方差的运算性质,对任意二个随机变量X1和X2,有,E(X1+X2)=E(X1)+E(X2),设X为随机变量,a与b为任意常数,有,E(ax+b)=aE(x)+b,设X1与X2相互独立,(和的方差等于方差之和),这个性质可推广到三个或更多个相互独立 随机变量场合,方差的这个性质不能推广到标准差场合,对任意两个相互独立的随机变量X1与X2,(X1+X2)(X1)+(X2),而应为:,方差具有可加性,标准差不具有可加性。,四、常用分布,(一)常用的离散分布,二项分布,x=0,1,n,其中 表示从n个不同元素取出x个的组合数。,记为b(n,p),二项分布均值、方差和标准差,均值E(x)=np,方差:Var(x)=np(1-p),标准差:,泊松分布:(常用于计点过程),x=0,1,2,,记为P(),其中e=2.71828,泊松分布均值、方差和标准差,均值:E(X)=,方差:,标准差:,超几何分布:(不放回抽样),x=1,2,r,式中r=min(n,M),M为N中所含不合格品数,n为样本量,记为h(n,N,M),超几何分布均值、方差、标准差,均值:,方差:,(二)连续型随机变量的分布,正态分布:能描述很多质量特性X随机取值 的统计规律性。,正态分布概率密度函数:,(-x+),正态分布含两个参数和,常记:N(,2)。其中为分布均值(即分布中心);2为分布方差;0为分布标准差。,正态分布概率密度函数图形分析,标准正态分布:=0且=1的正态分布,称 为标准正态分布,记N(0,1),其变量记 为U,概率密度函数记为(u),标准正态分布表及其应用,标准正态分布表,可用于计算形如“Uu”随机事件发生的概率。,如:查附表得0.93575,标准正态分布N(0,1)的分位数,分位数(为01间实数),指它的左侧面积恰好为,右侧面积恰好为1-,即用概率表达,当=0.5时,称为中位数,N(0,1)分布中u0.50,0.5时,如=0.25则u0.25=-u0.75,查附表 u0.75=0.675,故u0.25=-0.675,正态分布的计算,性质1:设,则,性质2:设,则对任意实数a,b有,不合格品率,为产品质量特性X超出规范限(TL,TU)的概率,X超出TU(上规范限)的概率记PU,pU=P(XTU),X超出TL(下规范限)的概率记PL,pL=P(XTL),X的不合格品率P=PU+PL,正态分布中心,计算不合格品率要知道两件事:,质量特性X的分布,在过程受控情况下,常为正态分布N(,2),产品规范限,是对产品质量特性所作的要求,这些要求可能是顾客要求;可能是标准;可能是企业规定的技术要求。,则:,其中 可查标准正态分布函数表,当正态分布中心=规范中心 时产品质量特性X超出规范3的不合格率,pL=P(x-3)=(-3)=1-(3),=1-0.99865=0.00135=1350PPm,pU=P(x+3)=1-(3),=0.00135=1350PPm,p=pL+pU=0.00135+0.00135=0.0027=2700PPm,(三)其他连续分布,均匀分布,在区间(a,b)上的均匀分布,记U(a、b),均值、方差、标准差,均值,方差,标准差,指数分布,记为,其中0。,均值,方差,标准差,对数正态分布(特点),随机变量都在正半轴(0,+)上取值,大量取值在左边,少量取值在右边,且很分散,这样的分布称之为右偏分布。(曲线的尾巴在右边),对数正态分布密度函数,正态分布的密度函数,最重要特征:,若随机变量X服从对数正态分布,则作对数变换 后,服从正态分布。,记正态分布的均值为,方差为,则相应的对数正态分布的均 与方差 分别为,均值:,方差:,若X服从对数正态分布,则,五、中心极限定理,随机变量的独立性,随机变量X1与X2相互独立是指其中一个取什么值不影响另一个的取值,或者说是指两个随机变量独立的取值,互不影响。,随机变量的独立性可以推广到3个或更多个随机变量。,中心极限定理,在统计中,多个相互独立随机变量的平均值(仍然是一个随机变量)将服从或近似服从正态分布。,即n个相互独立同分布的随机变量X1,X2,Xn,均值和方差 都存在,则在n较大时,其样本均值 服从或近似服从正态分布N(,)。,第三节 统计基础知识,一、总体、个体与样本,(一)总体与个体,总体:在一个统计问题中,我们把研究对象的 全体成为总体。,当研究产品某个特定的质量特性X时,也常把全体产品的特性看做为总体。,个体:构成总体的每个成员。,当研究产品的某个特定的质量特性X时,把一个具体产品的特性值x视为个体。,(二)随机样本,满足下面两个条件的样本称为简单随机样本,简称随机样本:,1.随机性。总体中每个个体都有相同的机会入样。,2.独立性。从总体中抽取的每个样品对其它 样本的的抽取无任何影响。,随机样本可看做n个相互独立的、同分布 的随机变量,其分布与总体分布相同。,下面所述的样本都是指满足这两个要求的 简单随机样本。,二、频数(频率)直方图,为了研究数据的变化规律,需要对数据进行一定的加工整理。直方图是为研究数据变化规律而对数据进行加工整理的一种基本方法。,(一)直方图的作法,例1.3-3 食品厂用自动装罐机生产罐头食品,从一批罐头中随机抽取100个进行称量,获得罐头的净重数据如下:,为了解这组数据的分布规律,对数据做如下整理:,(1)找出这组数据中的最大值xmax及最小值xmin,计算它们的差R=xmax-xmin,R称为极差,也就是这组数据的取值范围。在本例中xmax=356,xmin=332,从而R=356-332=24。,(2)根据数据个数,即样本量n,决定分组数k及组距h。,一批数据究竟分多少组,通常根据n的多少而定,不过这也不是绝对的,教材中1.3-2是可以参考的分组数。,选择k的原则是要能显示出数据中所隐藏的规律,组数不能过多,但也不能太少。,每一组的区间长度,称为组距。组距可以相等,也可以不相等。组距相等的情况用得比较多,不过也有不少情形在对应于数据最大及最小的一个或两个组,使用与其他组不相等的组距。对于完全相等的组距,通常取组距h为接近的某个整数值。,在本例中,n=100,取k=9,R/k=24/9=2.7,故取组距h=3。,(3)确定组限,即每个区间的端点及组中值。为了避免一个数据可能同时属于两个组,因此通常将各组的区间确定为左开右闭的:,通常要求 xmin,xmax。在等距分组时,而每一组的组中值,在本例中取=331.5,则每组的组限及组中值见表1.3-3。,(4)计算落在每组的数据的频数及频率,确定分组后,统计每组的频数,即落在组中的数据个数以及频率,列出每组的频数、频率表,见表1.3-3。,频数、频率及累积频率表,表1.3-3,(5)作频数频率直方图,在横轴上标上每个组的组限,以每一组的区间为底,以频数(频率)为高画一个矩形,所得的图形称为频数(频率)直方图,如图1.3-4。在本例中频数直方图及频率直方图的形状是完全一致的。这是因为分组是等距的。,在分组不完全等距的情形,在作频率直方图时,应当用每一个组的频率与组距的比值/为高作矩形。此时以每个矩形的面积表示频率。,频数(频率)直方图,(二)直方图的观察与分析,a.对称型b.偏态型c.孤岛型d.锯齿型e.平顶型f.双峰型,三、统计量与抽样分布,1统计量的概念,不含未知参数的样本函数,样本均值、样本中位数、样本极差、样本 方差、样本标准差及样本变异系数等都是 统计量,只有众数除外。,2抽样分布,统计量的分布称为抽样分布,(一)样本数据集中位置的统计量,(1)样本均值,(2)样本中位数Me(或),(3)众数(Mod),数据中出现频率最高的值。,(二)描述样本数据分散程度的统计量,(1)样本极差,(2)样本方差,因为n个离差()的总和为零,所以对于n个独立数据,独立的离差个数只有n-1个,称n-1为离差(或离差平方和)的自由度。故方差用离差平方和除以n-1。,简化计算公式:,或,(3)样本标准差,标准差的量纲与数据的量纲一致,(4)样本变异系数,四、常用抽样分布,1 的分布,设X服从N(,),(x1,x2,xn)是由总体X中抽取的一个样本,则服从 N(,),(1)的精确分布,(2)的渐进分布,设X为任意分布,(x1,x2,xn)是由总体X中抽取一个样本,若,则当n时,近似服从 N(,)。,(3)分布,设X服从N(0,1),且设(x1,x2,xn)是由总体X中抽取的一个样本,则,服从自由度为n的 分布,记作(n)。,设X服从N(,),则,(3)t 分布,设随机变量X,Y相互独立,XN(0,1),Y(n)则 服从自由度为n的t分布记作tt(n),设XN(,),(x1,x2,xn)是由总体X中抽取的一个样本,则,设X和Y相互独立,且XN(,),YN(,),(x1,x2,xn1)与(y1,y2,yn2)分别由总体X和Y中抽 取的样本,则,(4)F 分布,设X与Y相互独立,且X2(N1),Y2(N2)则 服从自由度为(N1,N2)的F 分布。记作 FF(N1,N2)。,设X和Y相互独立,X,Y,(x1,x2,xn)与(y1,y2,ym)分别由X 和Y中抽取的样本,则,F(n1,m1),当=时,则,正态分布,t 分布,分布,F分布,第四节 参数估计,一、点估计,1概念,设 是一个未知参数,由总体X中抽取的样本,则用 来估计,则称 为 的估计量(或称估计)。,2矩法估计,(1)用样本矩估计相应总体矩;,(2)用样本矩的函数估计相应总体矩的函数。,例如用样本均值估计总体均值;用样本方差(标准差)来估计总体方差(标准差)。,3.点估计优劣的评选标准,(1)无偏性,设 是的一个估计量,若,则称 是的无偏估计。,(2)有效性,设 都是的无偏估计量,若对一切的可能取值有:,,且至少有一个,严格不等号成立,则 比 有效。,(3)正态总体参数的无偏估计,的无偏估计有两个,即 和。,的无偏估计常用的只有一个,即。,的无偏估计有两个,即 和,二、区间估计,(一)区间估计的概念,设是总体分布中的未知参数,其一切可能取值组成的参数空间为,从总体中抽取一个样本(x1,x2,xn),对给定的,确定两个统计量:与,对任意的 有,则称L,u是的置信水平为 的置信区间。,1-置信区间的含义:,所构造的一个随机区间 能包含未知参数 的概率为1-。由于这个随机区间会随样本观察值的不同而不同,它有时包含了参数,有时没有包含,但是用这种方法作区间估计时,100次中大约有100(1-)个区间能包含未知参数。,(二)一个正态总体均值与方差的置信区间,(1)已知,求 的置信区间,的1-置信区间为:,(2)未知,求 的置信区间,(3)方差 的1-的置信区间(未知),(4)标准差 的1-的置信区间(未知),(三)比例p的置信区间(大样本场合),设总体,样本为x1,x2,xn,样本之和为K,样本均值为 则,(点估计),当n相当大时,故p的 置信区间。,其中 是标准正态分布的 分位数。,第五节 假设检验,基本思想,根据所获得的样本,运用统计分析的方法,对总体X的某种假设H0作出接受或拒绝的决定。,(二)基本步骤,1建立假设,H0称为原假设,H1称为备择假设,如关于均值 常用有三类假设:,H0:H1:,(3),(1),(2)称为单边假设检验,(3)称为双边假设检验,2寻找检验统计量T,确定拒绝域的形式 3给出显著性水平 4给出临界值,确定拒绝域 5根据样本观察值计算检验统计量的观察值,根据计算结果作出拒绝或接受H0的判断。,一个正态总体的假设检验,1.已知,检验H0:,H1:,(1)检验统计量,(2)给定,查标准正态分布函数值表定出临界值,(3)由样本观察值计算出统计量u,(4)作出判定,当 接受H0,拒绝H0,接受H1,2.已知,检验H0:,H1:,(1)检验统计量,(2)给定,定出临界值,(3)由样本观察值计算出统计量,(4)判定,当 接受H0,拒绝H0,接收H1,3.已知,检验H0:,H1:,(1)检验统计量,(2)给定,定出临界值,(3)由样本观察值计算出统计量u,(4)判定,当 接受H0,拒绝H0,接受H1,4.未知,则用t检验法,把上述的统计量u换成t,即,对给定的,查t一分布表,确定临界值,然后作出接受或拒绝的判定。,5.未知,检验H0:,H1:,(1)检验统计量,(2)给定,查 分布表,定出临界值,和,(3)由样本观察值计算出统计量,当,接受H0,否则拒绝H0,接受H1。,三、有关比例p的假设检验,设Xb(1,p),x1,x2,xn由总体X抽取的一个样本,当n较大时,根据中心极限定理,近似服从正态分布,则,近似服从N(0,1),则可获得p的近似u检验。,