贝叶斯统计学2.ppt
2023/4/3,1,第二章 贝叶斯推断,2.1 条件方法2.2 估计2.3 区间估计2.4 假设检验2.5 预测2.6 似然原理,2023/4/3,2,2.1 条件方法,未知参数的后验分布是集总体、样本和先验三种信息于一身,是将三种信息进行有效综合的结果,反映了我们所能了解的有关 的全部信息。应该说给统计推断提供了更有利条件。-条件方法正是充分利用这一条件的方法。后验分布 是在样本x给定下的条件分布,基于后验分布的统计推断就意味着只考虑已经出现的数据(样本观测值),而认为未出现的数据与推断无关,这一重要的观点被称为“条件观点”,基于这种观点提出的统计推断方法被称为条件方法。,2023/4/3,3,经典统计中统计推断的简单回顾,经典统计统计推断过程:,总体,样本,样本数据x,统计量T,统计量分布,已知未知,枢轴统计量,枢轴统计分布,推 断,2023/4/3,4,条件方法统计推断过程,综合总体信息、样本信息和先验信息得到后验分布。基于后验分布,在已出现的样本基础上推断总体参数。对统计推断的结果,不认为所谓无偏性是优良估计的评价标准。,2023/4/3,5,2.2 贝叶斯点估计,贝叶斯点估计的含义最大后验估计条件期望估计贝叶斯估计误差,2023/4/3,6,1.贝叶斯估计的含义,定义:设总体分布 中的参数,若事先从该总体中抽得一个样本,同时根据的先验信息选择一个先验分布,在贝叶斯公式的基础上计算后验分布,这种对的所有推断估计都依据后验分布进行估计方法统称为贝叶斯估计。贝叶斯估计的分类:首先与经典统计一样,贝叶斯估计也可按照方式分-点估计和区间估计。按照估计的具体方法分-最大后验估计、条件期望估计和后验中位数估计。,2023/4/3,7,2.最大后验估计,若 使得则称 为的最大后验估计。显然,最大后验估计的特殊情形是当先验分布时最大后验分布就是经典统计中的最大似然估计。,2023/4/3,8,一般来说,由于后验分布中,蕴含了抽样信息、先验信息和总体信息,其估计应该比经典统计中的“极大似然估计”要好。在“无信息”的条件下,最大后验估计即为最大似然估计。其他情况下,应该比其更好。,2023/4/3,9,例:设 是来自正态分布 的样本,其中 已知。又设 的先验分布为 求 的最大后验估计。解:由题意知 其先验分布为,2023/4/3,10,两边取对数得:,2023/4/3,11,为了求上式的最大值,对上式求 的导数,并令导数为0,则:解得:,2023/4/3,12,按照教材的假设,若取 为一儿童智力测验结果的分布,为先验分布,在n=1时可得X=x的条件下该儿童智商的后验分布是正态布,且有当x等于某一具体值时,按此立刻估计出智商水平。此外,在正态分布条件下,中位数、众数和期望相等,因此最大后验估计也就是条件期望估计和后验中位数估计。,2023/4/3,13,例:(1)设 是来自正态总体 的样本,又设 的先验分布为 求 的最大后验估计。(2)若记,设 的先验分布为,求 的最大后验估计。解:(1)样本的似然函数为:,2023/4/3,14,当 的先验分布为 时,其后验分布为两边去对数有所以,2023/4/3,15,(2)同理,可得样本的似然函数为当 的先验分布为 时,其后验分布为,2023/4/3,16,取对数,并对 求导则有所以,有 的最大后验估计为可见 和 的最大后验估计是不同的。,2023/4/3,17,3.条件期望估计(后验期望估计),定义:设后验分布为,如果 满足:则称 为 的条件期望估计。,2023/4/3,18,例:设 服从二项分布,又设 的先验分布为,求 的最大后验估计,条件期望估计。解:由以上知识知,样本似然函数为取 的先验分布为贝塔分布,2023/4/3,19,后验分布密度为 的最大后验估计为,2023/4/3,20,当 时,先验分布为,也即均匀分布 因此,的最大后验分布为此即为经典统计学中的极大似然估计。由以上知,可见,后验密度为,其条件期望估计为,2023/4/3,21,例:设 是来自poisson分布总体的样本,又设 的先验分布为,求参数 的后验期望估计。解:样本似然函数为 其中。而其给定的先验分布为,2023/4/3,22,后验分布为这仍然是伽玛分布 的“核”,所以 的后验期望估计为,2023/4/3,23,4.贝叶斯估计的误差,引子:设 是 的一个贝叶斯估计,在样本给定时,是一个具体的数。在取得后验分布以后,评价一个估计的好坏,一般计算 对 的后验均方差或后验标准差。这就是贝氏统计评价标准。说明:在评价一个估计时,经典统计中是利用所谓所谓几个优良标准:即无偏性、一致性和有效性。但贝叶斯统计并不接受这些所谓的标准。因为他们是建立所有样本的基础之上的理论。,2023/4/3,24,定义1:设参数 的后验分布 贝叶斯估计为,则 的后验期望称为 的后验均方差。其平方根 称为 的后验标准误差。,定义2:当 为 的后验期望估计 时,则称为后验方差。其中,其平方根称为后验标准差。,2023/4/3,25,均方差和后验方差有如下关系:,2023/4/3,26,这表明当 为后验期望估计时,可是后验均方差达到最小,所以实际中常使用后验期望估计作为 的估计。因此后验期望估计一般优于最大后验估计。,2023/4/3,27,例:设一批产品不合格率为,检查是一个接一个地进行,直到发现第一个不合格聘停止检查,若设x为发现第一个不合格品时,已检查的产品数,则x服从几何分布,其概率分布为现假如其中参数只能以相同的概率取1/4,2/4和3/4三个值,现只获得一个样本观察值 x=3,要求的最大后验估计,并计算他的误差。,2023/4/3,28,解:显然,有题设条件有:的先验分布为在给定的条件下,x=3的条件概率分布为于是其联合概率分布为,2023/4/3,29,所以,x=3的边缘概率分布为所以在x=3的条件下,的后验分布为 i=1,2,3,2023/4/3,30,所以,的概率分布表为可见的最大后验估计。上述后验分布的均值和方差可计算:,2023/4/3,31,所以,后验均方差为 后验标准误为:,2023/4/3,32,2.3 区间估计,引子可信区间最大后验可信区间,2023/4/3,33,1.引子,概述:对于区间估计问题,贝叶斯方法比经典统计方法易于处理,因为参数是一个随机变量,且经过计算后,它的后验分布已知,所以落在某一区间的概率是容易确定的。经典统计将看作常量由此产生了置信概率计算上的困难。如计算在区间(a,b)上的概率,反之也易。,2023/4/3,34,说明:经典统计中对所作的区间估计称作置信区间。其本质是将1-的保证概率(置信概率)放在中间,两边各留出/2的概率作为显著性水平,在大多数统计学中经典统计都回避了这一本质(讨论其他情况太复杂)。因为实际上这样得到的所谓置信区间未必就是可行、可信和最优的估计区间。这样所作的置信区间也实际建立概率密度是单峰、连续和对称条件下的一种估计。由于贝叶斯统计处理上的简化,所以它对区间估计处理和认识要细致一些。,2023/4/3,35,贝叶斯统计中区间估计的分类:以上无论哪一种可信区间都可以说落在某一区间。而经典统计绝对不能这样说。,2023/4/3,36,2.可信区间,定义:设参数的后验分布为,对于给定的样本 和概率1-(01),若存在这样的两个统计量,使得则称区间 为参数的可信水平为1-的贝叶斯可信区间。当将可信水平置于中间所得的可信区间 为同等可信区间(由于大多属于此类,通常将此类简称可信区间)。为可信上、下限。当满足即当()时,称区间 为(单侧)上侧可信区间。此时称 为(单侧)可信下限。,2023/4/3,37,当满足即当()时,称区间 为(单侧)下侧可信区间。此时称 为(单侧)可信上限。,2023/4/3,38,例:对正态分布 作观察,获得三个观察值:2、4、3,若的先验分布为,求的0.95的可信区间。解:由以前知识知道,先验分布 是参数 的共轭先验分布,所以其后验分布为,且,2023/4/3,39,相应即后验分布为,所以显然可查的 所以,2023/4/3,40,即:的0.95的可信区间为如果按经典统计计算,则的0.95的置信区间为,2023/4/3,41,例:经过早期筛选后的彩色电视机的寿命服从指数分布,其密度函数为,t0。其中0是彩电的平均寿命。现从一批彩电中随机地抽取n台进行寿命实验,试验到第r(n)台失效为止,其失效时间为,另外n-r台直到实验停止时()还未失效这样的试验称为截尾寿命试验,所得样本 成为截尾样本,请确定彩电平均寿命的贝叶斯估计。,2023/4/3,42,解:样本联合密度(似然函数)为其中,t0,2023/4/3,43,选用倒伽玛分布 作为的先验分布,即假定我们已经从15个彩电厂收集到13142台彩电的寿命试验数据,共计5369812台时,此外还对9240台彩电进行了5547810台时的三年跟踪试验,在此实验中总共不超过250台失效。由这些数据,专家确认我国彩电平均寿命不低于30000小时,10%的分位数大约为11250小时。由此我们可以确定其超参数:,2023/4/3,44,所以,即先验分布为 故后验分布为 这仍然是一个倒伽玛分布的核取后验分布均值(即作后验期望估计)作为的贝叶斯估计有当代入上式有,2023/4/3,45,作的(单侧)上侧可信区间,如果相对应给出1-=0.9,则有值得注意的是,按照教材:IGa,则。则,所以,这里有 当,2023/4/3,46,例:设 来自正态总体 的样本,其中 已知,求 的 的可信区间。(1)选用共轭先验。(2)选用广义均匀分布 作先验分布。,2023/4/3,47,解:显然的可信区间与选用什么样的先验分布有关。我们来比较两个不同的先验分布给出的可信区间的差异。1)选用共轭先验分布 作为共轭先验分布。由以前知识可知,的后验分布可为 并且有:,2023/4/3,48,因此,给定1-之后从标准正态分布N(0,1)的分布表上可查得1-/2的分位点,所以 这样很快就可得到的1-的可信区间为 将 和 代入上式,有,2023/4/3,49,显然,如果先验分布非常分散(即对的先验信息作用不大)则可考虑到下式成立 此时,上述区间可为这就是经典统计的结果。,2023/4/3,50,2)选用广义贝叶斯(广义均匀分布)作为的先验分布,即 所以,在样本给定(样本均值是充分统计量),2023/4/3,51,即的后验分布是正态分布 所以 因此,在给定1-以后,2023/4/3,52,相对应的可信区间为它与经典统计结果一致。这说明,在没有任何先验信息可利用的条件下,只能靠样本信息来估计时,就是经典统计。,2023/4/3,53,3.最大后验可信区间,1)问题的提出及其含义2)定义3)最大后验密度可信区间的计算,2023/4/3,54,问题提出及其含义,首先对于给定的可信水平,事实上当把1-放在不同的地方就会得到不同的区间。最基本的以正态分布为例,显然当把1-放在左边和放在右边所得到的可信区间(经典统计中的置信区间)是不同的。常用的方法是放在中间。特别当后验分布不是单峰,对称和连续分布时上述区间就不一定是理想估计区间。理想的估计区间:应该是估计精度高、保证概率大。这就提出一个要求:我们所作的区间应该将密度值大的点包括在可信区间中最大后验可信区间,2023/4/3,55,定义,设参数的后验分布为,对于给定的概率1-(01)若在直线上存在这样一个子区间(子集)c,满足下列两个条件:1.2.对于任意给定的,总有 成立。则称区间c为的可信水平为1-的最大后验密度可信集。若c是一个区间,则c又称的1-的最大后验可信区间,简称为HPD可信区间。,2023/4/3,56,最大后验可信区间的实际计算,尽管最大后验可信区间的理论分析是非常清楚,含义也很明确,但是实际计算存在困难。关键是要比较密度值的大小。对于的后验分布实际上,有可能是离散分布、也可能是连续分布;也有可能是对称分布,或者非对称分布;还有可能是单峰的分布,或者多峰的分布。这些对于计算最大后验可信区间都是由影响的。,2023/4/3,57,当为离散随机变量时,HPD可信区间很难直接找到(实现),操作上需要将所有的取值的相应概率进行比较。当为连续型随机变量,但后验分布为多峰分布时,最大后验可信区间c可能是几个互不相连的几个区间构成。有人认为这样计算的区间难度也很大,而实用性却不高,因此甚至有人建议在这种情况下放弃计算最大后验可信区间的准则。当为连续型随机变量,且后验密度函数为单峰分布时,可采用计算机叠代逼近,计算HPD可信区间。特别是当后验分布为对称分布时,HPD 可信区间是已于确定的等尾可信区间。,2023/4/3,58,叠代方法步骤,第一步,计算 第二步,取,并计算 由此得到。第三步,计算区间 上的概率,即 第四步,若p(*)=1-,则 极为所求。若p(*)1-,则应减少 并重复上述步骤。若p(*)1-,则应增加 并重复上述步骤。,2023/4/3,59,例:在前面我们已经确定了彩电平均寿命的后验分布为倒伽码分布即求的可信水平为0.9 的PHD可信区间。解:的后验密度为,2023/4/3,60,为了计算上的方便计算其分布函数求得 取,所以有 代入后验密度函数有,2023/4/3,61,所以,有区间计算故需增加 的值,取 即 相应地,有 有区间,2023/4/3,62,所以,增加 得到所以所求的最大后验可信区间为,2023/4/3,63,2.4 假设检验,1.概述2.贝叶斯因子3.假设检验的具体操作,2023/4/3,64,1.概述,经典统计中假设检验的处理方法贝叶斯假设检验问题处理的一般步骤贝叶斯假设检验与经典统计相比存在的优点,2023/4/3,65,经典统计中假设检验的处理方法,1.建立原假设 和备择假设。2.选择统计量,在原假设为真时,使其概率分布已知。3.对给定的显著性水平,确定拒绝域W,使犯第一类错误的概率不超过。4.当由样本所构造的统计量值落入一个非常小的概率 所对应的拒绝域W时,就不能接受原假设。相应只能更加相信备择假设。,2023/4/3,66,贝叶斯假设检验问题处理的一般步骤,1.根据有关理论,确定后验分布。2.作假设:。3.计算后验概率:。4.计算后验机会比。5.判断:当 时,接受;当 时,接受;当 时,应增加样本容量,2023/4/3,67,贝叶斯假设检验与经典统计相比存在的优点,1.贝叶斯假设检验,过程简便,含义直观,思路清晰。2.贝叶斯假设检验无需事先给出显著性水平。3.贝叶斯假设检验无需已知统计量及其对应的枢轴统计量的概率密度。,2023/4/3,68,例:设从正态总体 中抽得样本容量为10 的样本,并算得样本均值为,设 的先验分布是,作下列贝叶斯假设检验:解:由共轭先验分布有关知识知,后验分布为 且有:,2023/4/3,69,所以故拒绝,相应接受。,2023/4/3,70,例:设 是从二项分布 中抽得的一个样本,现考虑如下二个假设:其中,若取均匀分布 作为的先验分布,请据此作假设检验。解:由题设知,,2023/4/3,71,后验分布为贝塔分布 即:,2023/4/3,72,当n=5时,数据见(mathcad中:贝塔分布计算表)由此可见,当 x=0,1,2时,应该接受而当x=3,4,5时,应该拒绝 接受。,2023/4/3,73,例:如上例类似,现设有一批产品的废品率是,其先验分布是均匀分布,从该批产品中有放回地抽取样本容量为100的样本,记其废品数为x作下列贝叶斯假设检验:使制定一个抽样方案,说明何时接,何时拒绝。解:因为是有放回抽样,所以总体分布可以看作二项分布即x 当废品数为x时,其样本联合分布为,2023/4/3,74,后验分布也就是贝塔分布很快就有依此相应计算出。将 和 以及它们的比值分别计算出来(mathcad:贝塔分布计算表2),2023/4/3,75,2023/4/3,76,2.贝叶斯因子,定义:设两个假设 和 的先验概率分别为 和,后验概率分别为 和,则称为贝叶斯因子。,2023/4/3,77,说明:后验概率(机会),一般认为它包含了先验信息和样本数据的影响。从定义来看,贝叶斯因子它也依赖于先验分布和样本数据,但贝叶斯因子将后验机会与先验机会进行对比,很多人认为:这样比较可能会消弱先验分布的影响,突出样本数据对假设检验判断的影响。所以从这一角度来看,贝叶斯因子实际上是样本数据对 的支持程度。研究贝叶斯因子的重要性也正是在于它被解释为“数据得出的 与 的机会比”。根据贝叶斯因子,有时可以将假设检验的判断问题转化为似然比与先验机会比的比较问题。,2023/4/3,78,贝叶斯假设检验的简单分类,1.假设检验问题的一般表述:其中 和 分别是的某一区间。,2023/4/3,79,2.假设检验问题的分类,按的取值区间分:简单对简单假设复杂对复杂假设简单对复杂(或复杂对简单)假设,2023/4/3,80,3.假设检验的具体操作,1)简单对简单假设其中:。也即:一定要注意的是 实际上就是先验概率。在 发生的条件下x的条件概率为,相应地在 发生的条件下x的条件概率为。,2023/4/3,81,则相对应的后验概率为在这里实际上贝叶斯因子就是似然比。这种情况下可利用似然比(贝氏因子)来给出判断。,2023/4/3,82,即当时,接受 拒绝;相对应,当可以看出先验机会比 似乎就是一个所谓临界值。,2023/4/3,83,例:设x,其中只有两种可能,非0即1,若从该总体中抽取了一个样本容量为n的样本,其均值 是充分统计量,要求对 作出判断。解:作假设在 和 分别为真时,的似然函数为,2023/4/3,84,值得注意的是,在这里我们忽略了,但是我们注意到贝叶斯因子:,2023/4/3,85,理应当 接受,拒绝。接受,拒绝。当n=100,时,贝叶斯因子的取值为要求 即支持原假设的机会是很小的。,2023/4/3,86,2.)复杂对复杂假设,此时假设形式为即这是我们注意到,2023/4/3,87,在 成立时,设有一先验分布同里,在 成立时,设有一先验分布这时,实质上先验分布表示为,2023/4/3,88,所以后验机会比为贝叶斯因子为,2023/4/3,89,可见:就是加权似然比。它强调了样本的作用。它部分地消除了先验分布的影响。,2023/4/3,90,例:一产品的长度的误差服从正态分布,设 的先验分布Iga(0,0),也即,现在取200个做实验,设其长度的误差平方和。作下列贝叶斯假设检验:解:似然函数为,2023/4/3,91,2023/4/3,92,其先验分布为Iga(0,0),即:所以,有后验分布为,2023/4/3,93,显然这仍然是一个倒伽玛分布,即又由于t=17.24,所以后验分布为如果你有伽玛分布的概率分布表,由于,2023/4/3,94,所以倒伽玛分布与伽玛分布有则后验概率,2023/4/3,95,所以,接受如果直接用mathcad计算:倒伽玛分布概率计算,2023/4/3,96,3)简单对复杂假设,此时假设的基本形式为其中:按照惯例,即为了研究方便,通常还将其看作其中:为无穷小量。,2023/4/3,97,对于原假设,显然不可能存在一个连续密度函数作为的先验分布。因为对于连续分布而言,当 时的先验概率为0,因此,为了研究的需要作如下处理:设:当 成立时有一先验分布;当 成立时,也有一先验分布,2023/4/3,98,因此,类似地,先验分布可表示为这时,若似然函数为,则利用以上给定的条件可得样本边缘分布,2023/4/3,99,其中:。后验分布为当 成立时,,2023/4/3,100,相应地,当 成立时,所以因此从而相应的贝氏因子为,2023/4/3,101,在这一情况下,贝氏因子较易于计算,所以通常也可先计算贝氏因子,在计算后验概率。,2023/4/3,102,例:设x是从二项分布b(n,)中抽取的一个样本,若设在 上的先验密度 为区间(0,1)上的均匀分布,现考察如下假设:解:似然函数为,2023/4/3,103,所以于是,贝叶斯因子为原假设成立的后验概率,2023/4/3,104,当n=5,x=3,用mathcad计算:规划计算1,2023/4/3,105,例:设 为来自正态总体 的样本,要求作下列假设检验:分别为 成立时的先验概率,且 为单点集,若 成立,。若 成立,。,2023/4/3,106,解:根据以上条件所以,,2023/4/3,107,所以故:,2023/4/3,108,在其他条件不变时,要求 越大,实际上就是要求 越小。这完全符合实际。注:,2023/4/3,109,2023/4/3,110,例:投掷一枚钱币,共投掷n=10次,出现正面x次,问能否认为钱币是均匀的?1)x=3 2)x=8解:设出现正面的概率为,作假设又设先验分布,2023/4/3,111,所以又,2023/4/3,112,贝叶斯因子为当 时,所以:1)当n=10,x=3,2)当n=10,x=8,2023/4/3,113,即1)当x=3时,接受。2)当x=8时,不能接受。事实上,用mathcad计算其结果可见规律:规划计算2,2023/4/3,114,2.5 预测,1.预测的含义2.预测分布3.预测的基本原理,2023/4/3,115,1.预测的含义,对随机变量X未来观测值作出统计推断称为预测。对随机变量未来观测值的预测,无非有两种:已知Xp(x/)(或者来自p(x/)的一组观测值),在参数位置的条件下,对X未来观测值作出推断。得到来自p(x/)的一组观测值 后,如何对具有密度函数g(z/)的随机变量Z的观测值作出推断。,2023/4/3,116,2.预测分布,预测问题也是统计推断形式之一,在统计学中有些问题,归结为预测问题。解决预测问题,其基本前提是已知预测分布,预测分布一般可分为先验预测分布和后验预测分布。设随机变量Xp(x/),在无X的观测数据时,利用先验分布 容易获得未知的、但可观测的数据 的分布:,2023/4/3,117,一般地我们将此分布称为X的边缘分布,也称之为“先验预测分布”。同理,在随机变量X取得若干观测数据 的前提下,利用后验分布 容易获得未知观测值的分布:对同一总体未来观测值预测 对另一总体未来观测值预测我们称 和 均称为后验预测分布,2023/4/3,118,3.预测的基本原理,在已经获得预测分布以后,贝叶斯预测也分为点预测和区间预测:1)点预测即是预测随机变量未来观测值的一个定点。点预测一般有众数预测和期望预测。点预测的基本方法:众数预测方法:若 存在 使得:则称 为随机变量X的众数预测值。,2023/4/3,119,同理,若存在 使得则称 为随机变量Z 的众数预测值。期望预测方法:若有:则称相应的 为随机变量X和Z的期望预测值。,2023/4/3,120,2)区间预测即是在一定概率保证下,预测随机变量未来观测值的一个概率区间。若已知预测分 和,相应地,给定概率1-,则有 相应地,若已知预测分,给定概率1-,则有,2023/4/3,121,例:一颗钻石在一架天平上重复称重n次,结果为,若把这颗钻石放到另一架天平上称重,若何对其称重值作出预测?设钻石称重值服从正态分布其中,为钻石的实际重量,且未知,为钻石在第一架天平上称重量的方差。根据历史数据又知,其中 均已知。解:在正态分布中,由于 是的充分统计量,所以,在第一架天平上样本称重量已知的条件下,的后验分布 为 且 分别为:,2023/4/3,122,即相应地设该钻石在另一架的称重量也服从正态分布,即为,所以,,2023/4/3,123,其中:利用正态分布密度函数的正则性用以计算得(其过程参考前面有关例题)。这表明后验预测分布也为正态分布后验预测分布的均值和方差为,2023/4/3,124,可见,就是Z的期望预测值(点预测)。在已知预测分布的前提下作区间预测也是容易和可行的。本文不直接给出结果,大家自己完成。,2023/4/3,125,例:一赌徒在过去10次赌博中赢3次,先要对未来5次赌博中他赢的次数z作出预测。解:实际上就是在过去的n次贝努里试验中,出现了x次,现在要对未来的k(=5)次贝努里试验中,出现z此进行预测。若设成功概率为,则样本x的似然函数为取共轭先验分布 作为的先验分布,,2023/4/3,126,则后验分布为:样本z的似然函数为在给定x 时,z的后验预测分布为,2023/4/3,127,在这里n=10,x=3,k=5,先验分布取(0,1)上的均匀分布,即=1于是z 的后验预测分布为显然,这里z可取0,1,5,则后验预测概率可通过mathcad直接计算:后验预测概率计算从此后验预测分布可以作预测区间和众数预测以及期望预测。,