第6章二项分布与Poisson分布.ppt
,第六章二项分布 与Poisson分布,离散型随机变量概率分布:二项分布、累积二项分布、超几何分布、负二项分布和泊松分布。最常用的概率分布,即二项分布和泊松分布,二项分布与Poisson分布及其应用 三种重要分布:正态分布 二项分布 Poisson分布,二 项 分 布,定义:在n次独立实验中,每次有两个对立的结果(如阳性或阴性,生存或死亡),其中某种阳性或阴性发生数X所服从的概率分布称为二项分布(binomial distrbution)。,成败型试验:成功次数的概率分布呈二项分布.故,构成Bernoulli Test序列中的n次试验中,事件A出现的次数的概率分布为:P(X=k)=(kn)k(1-)n-k其中k=0,1,n。,上式是二项式+(1-)n 展开式的各项,所以此分布为二项分布。n、是二个参数。若一个随机变量X,其取值是0,1,n。则相应取值概率为:P(X=k)=(kn)k(1-)n-k 所以,X服从以n、为参数的二项分布。记为:XB(n、).,二项分布的均数与方差若XB(n、),则 X的均数 x=n X的方差2x=n(1-)X的标准差x=n(1-)例:已知=0.6 3只鼠中死亡鼠数X的 总体均数x=n=30.6=1.8(只)总体方差2x=n(1-)=30.6(1-0.6)=0.72(只)总体标准差x=n(1-)=30.6(1-0.6)=0.72=0.85(只),条件:(1)总体中各观察单位具有互相对立的一种结果(“成功”或“失败”)(2)已知发生某一结果的概率为,则对立结果的概率为1-。出现“成功”的概率p对每一次试验是相同的,“失败”的概率q也不变,且p+ql。(3)n个观察单位的观察结果相互独立,即每个观察单位结果不会影响其他观察单位的结果,例题,例:用淋菌培养方法,检查患者是否患有淋病。对于淋病患者,若用该方法检查一次的检出率为0.8,问:1)重复检查3次,检查结果均为阴性的概率是多少?P=(1-0.8)3=0.0082)重复检查3次,检查结果中最少是阳性的概率是多少?P=1-(1-0.8)3=0.9923)检查4个患者,每人检查一次,第一个患者和第二个患者为阳性且其他均为阴性的概率是多少?P=0.820.22=0.0256,如果研究背景满足下列条件:1)每次试验的可能结果(Outcome)仅为两种(视为成功或失败,在上例中阳性或阴性)。2)定义试验中其中一个可能的结果成功,另一种可能的结果为失败(在上例中把检查结果为阳性可视为成功,检查结果为阴性为失败)。3)每次试验的条件相同。每次试验成功的概率为,失败的概率为1-(在上例中把检出阳性的概率为0.8,检查阴性的概率1-为=0.2)4)试验次数为n(上例中n=4)。,则在n次试验中,有X次成功的概率(在上例中,4个患者检查,即:n=4;有x个患者为阳性的)为:,并记为XB(n,),二项分布图形,平均发生率P的均数和标准差:平均发生率对应的总体均数为标准误为对应的样本标准误为,例:某医院治疗了50个HP的患者,35个患者转阴,请计算样本转阴率和样本标准误(把治疗一个HP患者视为一次试验,治疗50个患者,视为50次试验,把患者通过治疗后转阴的结果视为试验成功)。转阴率 转阴率的标准误,二项分布的应用,一、总体率可信区间估计:1、大样本时,二项分布的总体发生率的95%可信区间(设X服从二项分布B(n,),n5以及n(1-)5,当n充分大时)则的95可信区间(95%CI)为,例:调查了1000名男性,检查出10名男性是色盲的,试求色盲患病率的95可信区间。色盲样本患病率,n=1000。因此nP与n(1-P)均大于5以及n也充分大所以95CI为:(0.01-1.960.003146,0.01+1.960.003146)=(0.003834,0.016166),2、样本量较小时,计算比较复杂,因此建议查本书附表 6(P709)例:治疗25个HP患者,12个患者转阴,求转阴率的95可信区间:解:n=25,X12,查附表6,95%CI=(0.28,0.69)例:某医院抢救20个AMI患者,14个抢救成功,求抢救成功率的95%CI。解:由于X仅列出n/2的可信区间,不能直接查表求95CI。本例n=20,6个抢救未成功,故可查未成功率1-的95%CI为:0.12-1-0.54,所以0.88=1-0.121-0.54=0.46,即:95CI为(0.46,0.88)。,二、分类资料的假设检验 1、样本率与总体率的比较总体率(0)一般为标准值(或经过大量观察所得到的稳定值),比较目的 是推断实验所得某个样本率所代表的总体率是否是来自0总体的一个样本。(即检验假设为H0:=0是否成立),1)X服从二项分布,总体发生率为,并且 且,且n40,则,例:用传统的治疗方案治疗HP患者的治愈率为0.8。某研究用一种新的治疗方案治疗了100个HP患者,治愈了90个,问:用新的治疗方案的治愈率是否高于传统的治疗方案?H0:新的治疗方案的总体治愈率=0.8;H1:0.8=0.05(单侧)且 且n=10040,故可用正态分布进行近似。U U0.05=1.64,差别有统计意义,P0.05 结论:新的治疗方案的治愈率高于传统治疗方案的治愈率,差别有统计意义,P0.05,2)小样本时,样本率P与总体率的比较(直接计算)例:根据以往经验,一般的溃疡病患者的人群HP的患病率为30%。某医院在某社区随机检查了10名25岁以下的溃疡病患者,有1个溃疡病患者的HP。问:该地溃疡病患者的HP率是否低于30?=0.30,P(1)=0.121061,P(0)=0.028248 P小于等于1的概率为P(1)+P(0)=0.1493090.05,2两个随机样本率的比较 当n足够大,n1p1,n1(1-p1),n2p2,n2(1-p2)均大于5时,P综合阳性率=(X1+X2)/n Q 综合阴性率=1-P,例:对从事工农业生产高血压患病率(50岁以上男性)的研究,调查了首钢工人1281人、高血压患者386人,患病率30.13%;石景山区农民387人,血压血患者65人,患病率为16.80%,试问从事工农业生产的男性患病率有无差别。H0:1=2=0.05 P=(386+65)/1668=0.2704,拒绝H0,差别有极显著意义,Poisson分布,在医学上研究中,经常需要研究某一事件在一定的时间(空间)内发生的次数(稀有事件)变量X表示某一个事件在固定的一段时间内随机发生的次数。如果X的总体平均发生次数为,则该事件发生k次的概率为:x=0,1,2,3。,例:某市平均交通事故3起/天。问:一天内发生2起或2起以下的交通事故的概率是多少?解:总体均数3,因此一天内发生2起或2起以下的交通事故的概率为,Poisson分布的特征:一、Poisson分布的总体均数和方差。可以证明:Poisson分布的总体均数总体方差.二、Poisson分布的可加性(再生性)。如果变量X服从总体均数为1的Poisson分布,变量Y服从总体均数为2的Poisson分布,且X与Y独立,则XY服从总体均数为12的Poisson分布三、Poisson分布的图形(P100),特征X越靠近(),概率越大,越大,Poisson分布对称性越好,当 相当大时,Poisson分布近似正态分布,二项分布与Poisson分布的关系:当二项分布资料中n较大时,而且发生的次数非常稀少时(发生率很小),二项分布的概率计算可以用Poisson分布公式近似。一般而言,稀有病例的发病例数在相同的时段内可以近似认为服从Poisson分布。例:已知饮用井水人群的肝癌的患病率为0.003。请问现在某地调查了20000个饮用井水的人,患肝癌的人数为9人的概率是多少,则P(X=9)的概率,计算较难,Poisson分布的应用:一、Poisson总体均数的估计及其95%可信区间计算:较小时,可查附表 7(P714)当50时,可以用近似正态的方法计算可信区间:,Poisson分布的样本均数与总体均数的比较 1、直接计算P值 已知在培养液中,每毫升平均有3个细菌数,今采集放在5。C冰箱中的1毫升培养液测得细菌数5个,能否说培养液中细菌数有增长?H0:3/ml vs H1:3/ml样本值X5,对应的概率,P(X5)值=1-P(4)-P(3)-P(2)-P(1)-P(0)=1-0.1494-0.2240-0.2240-0.1680-0.0498=0.18470.05,2、正态近似法:当0 20时,H0成立时,服从标准正态分布 例:已知人群的肝癌的患病率为0.03%,调查了10万个饮用灌溉沟水的人,共有50人患肝癌,问:饮用灌溉沟水的人的肝癌患病率是否高于0.03%?0=n0=1000000.0003=3020 H0:=30 vs H1:30=0.05(单),1.65,故可以认为:饮用灌溉沟水的人肝癌患病率高于一般。,Poisson分布的两个样本均数比较的U检验 若两个样本均数X1和X2均大于20 观察单位相等的情况下:观察动物不相等的情况下,用除法将化大单位为小单位,例:调查100000个饮用灌溉沟水的人,患肝癌50人,调查150000个饮用河水的人,患肝癌65人,问饮用河水与饮用灌溉沟水的人的肝癌患病率是否不同。因为单位不同,故选用5000人为单位,因此n1=2,n2=3,即:样本均数均大于20,可以正态近似进行检验:,Thank You,