贝叶斯统计学2.ppt
《贝叶斯统计学2.ppt》由会员分享,可在线阅读,更多相关《贝叶斯统计学2.ppt(127页珍藏版)》请在课桌文档上搜索。
1、2023/4/3,1,第二章 贝叶斯推断,2.1 条件方法2.2 估计2.3 区间估计2.4 假设检验2.5 预测2.6 似然原理,2023/4/3,2,2.1 条件方法,未知参数的后验分布是集总体、样本和先验三种信息于一身,是将三种信息进行有效综合的结果,反映了我们所能了解的有关 的全部信息。应该说给统计推断提供了更有利条件。-条件方法正是充分利用这一条件的方法。后验分布 是在样本x给定下的条件分布,基于后验分布的统计推断就意味着只考虑已经出现的数据(样本观测值),而认为未出现的数据与推断无关,这一重要的观点被称为“条件观点”,基于这种观点提出的统计推断方法被称为条件方法。,2023/4/3
2、,3,经典统计中统计推断的简单回顾,经典统计统计推断过程:,总体,样本,样本数据x,统计量T,统计量分布,已知未知,枢轴统计量,枢轴统计分布,推 断,2023/4/3,4,条件方法统计推断过程,综合总体信息、样本信息和先验信息得到后验分布。基于后验分布,在已出现的样本基础上推断总体参数。对统计推断的结果,不认为所谓无偏性是优良估计的评价标准。,2023/4/3,5,2.2 贝叶斯点估计,贝叶斯点估计的含义最大后验估计条件期望估计贝叶斯估计误差,2023/4/3,6,1.贝叶斯估计的含义,定义:设总体分布 中的参数,若事先从该总体中抽得一个样本,同时根据的先验信息选择一个先验分布,在贝叶斯公式的
3、基础上计算后验分布,这种对的所有推断估计都依据后验分布进行估计方法统称为贝叶斯估计。贝叶斯估计的分类:首先与经典统计一样,贝叶斯估计也可按照方式分-点估计和区间估计。按照估计的具体方法分-最大后验估计、条件期望估计和后验中位数估计。,2023/4/3,7,2.最大后验估计,若 使得则称 为的最大后验估计。显然,最大后验估计的特殊情形是当先验分布时最大后验分布就是经典统计中的最大似然估计。,2023/4/3,8,一般来说,由于后验分布中,蕴含了抽样信息、先验信息和总体信息,其估计应该比经典统计中的“极大似然估计”要好。在“无信息”的条件下,最大后验估计即为最大似然估计。其他情况下,应该比其更好。
4、,2023/4/3,9,例:设 是来自正态分布 的样本,其中 已知。又设 的先验分布为 求 的最大后验估计。解:由题意知 其先验分布为,2023/4/3,10,两边取对数得:,2023/4/3,11,为了求上式的最大值,对上式求 的导数,并令导数为0,则:解得:,2023/4/3,12,按照教材的假设,若取 为一儿童智力测验结果的分布,为先验分布,在n=1时可得X=x的条件下该儿童智商的后验分布是正态布,且有当x等于某一具体值时,按此立刻估计出智商水平。此外,在正态分布条件下,中位数、众数和期望相等,因此最大后验估计也就是条件期望估计和后验中位数估计。,2023/4/3,13,例:(1)设 是
5、来自正态总体 的样本,又设 的先验分布为 求 的最大后验估计。(2)若记,设 的先验分布为,求 的最大后验估计。解:(1)样本的似然函数为:,2023/4/3,14,当 的先验分布为 时,其后验分布为两边去对数有所以,2023/4/3,15,(2)同理,可得样本的似然函数为当 的先验分布为 时,其后验分布为,2023/4/3,16,取对数,并对 求导则有所以,有 的最大后验估计为可见 和 的最大后验估计是不同的。,2023/4/3,17,3.条件期望估计(后验期望估计),定义:设后验分布为,如果 满足:则称 为 的条件期望估计。,2023/4/3,18,例:设 服从二项分布,又设 的先验分布为
6、,求 的最大后验估计,条件期望估计。解:由以上知识知,样本似然函数为取 的先验分布为贝塔分布,2023/4/3,19,后验分布密度为 的最大后验估计为,2023/4/3,20,当 时,先验分布为,也即均匀分布 因此,的最大后验分布为此即为经典统计学中的极大似然估计。由以上知,可见,后验密度为,其条件期望估计为,2023/4/3,21,例:设 是来自poisson分布总体的样本,又设 的先验分布为,求参数 的后验期望估计。解:样本似然函数为 其中。而其给定的先验分布为,2023/4/3,22,后验分布为这仍然是伽玛分布 的“核”,所以 的后验期望估计为,2023/4/3,23,4.贝叶斯估计的误
7、差,引子:设 是 的一个贝叶斯估计,在样本给定时,是一个具体的数。在取得后验分布以后,评价一个估计的好坏,一般计算 对 的后验均方差或后验标准差。这就是贝氏统计评价标准。说明:在评价一个估计时,经典统计中是利用所谓所谓几个优良标准:即无偏性、一致性和有效性。但贝叶斯统计并不接受这些所谓的标准。因为他们是建立所有样本的基础之上的理论。,2023/4/3,24,定义1:设参数 的后验分布 贝叶斯估计为,则 的后验期望称为 的后验均方差。其平方根 称为 的后验标准误差。,定义2:当 为 的后验期望估计 时,则称为后验方差。其中,其平方根称为后验标准差。,2023/4/3,25,均方差和后验方差有如下
8、关系:,2023/4/3,26,这表明当 为后验期望估计时,可是后验均方差达到最小,所以实际中常使用后验期望估计作为 的估计。因此后验期望估计一般优于最大后验估计。,2023/4/3,27,例:设一批产品不合格率为,检查是一个接一个地进行,直到发现第一个不合格聘停止检查,若设x为发现第一个不合格品时,已检查的产品数,则x服从几何分布,其概率分布为现假如其中参数只能以相同的概率取1/4,2/4和3/4三个值,现只获得一个样本观察值 x=3,要求的最大后验估计,并计算他的误差。,2023/4/3,28,解:显然,有题设条件有:的先验分布为在给定的条件下,x=3的条件概率分布为于是其联合概率分布为,
9、2023/4/3,29,所以,x=3的边缘概率分布为所以在x=3的条件下,的后验分布为 i=1,2,3,2023/4/3,30,所以,的概率分布表为可见的最大后验估计。上述后验分布的均值和方差可计算:,2023/4/3,31,所以,后验均方差为 后验标准误为:,2023/4/3,32,2.3 区间估计,引子可信区间最大后验可信区间,2023/4/3,33,1.引子,概述:对于区间估计问题,贝叶斯方法比经典统计方法易于处理,因为参数是一个随机变量,且经过计算后,它的后验分布已知,所以落在某一区间的概率是容易确定的。经典统计将看作常量由此产生了置信概率计算上的困难。如计算在区间(a,b)上的概率,
10、反之也易。,2023/4/3,34,说明:经典统计中对所作的区间估计称作置信区间。其本质是将1-的保证概率(置信概率)放在中间,两边各留出/2的概率作为显著性水平,在大多数统计学中经典统计都回避了这一本质(讨论其他情况太复杂)。因为实际上这样得到的所谓置信区间未必就是可行、可信和最优的估计区间。这样所作的置信区间也实际建立概率密度是单峰、连续和对称条件下的一种估计。由于贝叶斯统计处理上的简化,所以它对区间估计处理和认识要细致一些。,2023/4/3,35,贝叶斯统计中区间估计的分类:以上无论哪一种可信区间都可以说落在某一区间。而经典统计绝对不能这样说。,2023/4/3,36,2.可信区间,定
11、义:设参数的后验分布为,对于给定的样本 和概率1-(01),若存在这样的两个统计量,使得则称区间 为参数的可信水平为1-的贝叶斯可信区间。当将可信水平置于中间所得的可信区间 为同等可信区间(由于大多属于此类,通常将此类简称可信区间)。为可信上、下限。当满足即当()时,称区间 为(单侧)上侧可信区间。此时称 为(单侧)可信下限。,2023/4/3,37,当满足即当()时,称区间 为(单侧)下侧可信区间。此时称 为(单侧)可信上限。,2023/4/3,38,例:对正态分布 作观察,获得三个观察值:2、4、3,若的先验分布为,求的0.95的可信区间。解:由以前知识知道,先验分布 是参数 的共轭先验分
12、布,所以其后验分布为,且,2023/4/3,39,相应即后验分布为,所以显然可查的 所以,2023/4/3,40,即:的0.95的可信区间为如果按经典统计计算,则的0.95的置信区间为,2023/4/3,41,例:经过早期筛选后的彩色电视机的寿命服从指数分布,其密度函数为,t0。其中0是彩电的平均寿命。现从一批彩电中随机地抽取n台进行寿命实验,试验到第r(n)台失效为止,其失效时间为,另外n-r台直到实验停止时()还未失效这样的试验称为截尾寿命试验,所得样本 成为截尾样本,请确定彩电平均寿命的贝叶斯估计。,2023/4/3,42,解:样本联合密度(似然函数)为其中,t0,2023/4/3,43
13、,选用倒伽玛分布 作为的先验分布,即假定我们已经从15个彩电厂收集到13142台彩电的寿命试验数据,共计5369812台时,此外还对9240台彩电进行了5547810台时的三年跟踪试验,在此实验中总共不超过250台失效。由这些数据,专家确认我国彩电平均寿命不低于30000小时,10%的分位数大约为11250小时。由此我们可以确定其超参数:,2023/4/3,44,所以,即先验分布为 故后验分布为 这仍然是一个倒伽玛分布的核取后验分布均值(即作后验期望估计)作为的贝叶斯估计有当代入上式有,2023/4/3,45,作的(单侧)上侧可信区间,如果相对应给出1-=0.9,则有值得注意的是,按照教材:I
14、Ga,则。则,所以,这里有 当,2023/4/3,46,例:设 来自正态总体 的样本,其中 已知,求 的 的可信区间。(1)选用共轭先验。(2)选用广义均匀分布 作先验分布。,2023/4/3,47,解:显然的可信区间与选用什么样的先验分布有关。我们来比较两个不同的先验分布给出的可信区间的差异。1)选用共轭先验分布 作为共轭先验分布。由以前知识可知,的后验分布可为 并且有:,2023/4/3,48,因此,给定1-之后从标准正态分布N(0,1)的分布表上可查得1-/2的分位点,所以 这样很快就可得到的1-的可信区间为 将 和 代入上式,有,2023/4/3,49,显然,如果先验分布非常分散(即对
15、的先验信息作用不大)则可考虑到下式成立 此时,上述区间可为这就是经典统计的结果。,2023/4/3,50,2)选用广义贝叶斯(广义均匀分布)作为的先验分布,即 所以,在样本给定(样本均值是充分统计量),2023/4/3,51,即的后验分布是正态分布 所以 因此,在给定1-以后,2023/4/3,52,相对应的可信区间为它与经典统计结果一致。这说明,在没有任何先验信息可利用的条件下,只能靠样本信息来估计时,就是经典统计。,2023/4/3,53,3.最大后验可信区间,1)问题的提出及其含义2)定义3)最大后验密度可信区间的计算,2023/4/3,54,问题提出及其含义,首先对于给定的可信水平,事
16、实上当把1-放在不同的地方就会得到不同的区间。最基本的以正态分布为例,显然当把1-放在左边和放在右边所得到的可信区间(经典统计中的置信区间)是不同的。常用的方法是放在中间。特别当后验分布不是单峰,对称和连续分布时上述区间就不一定是理想估计区间。理想的估计区间:应该是估计精度高、保证概率大。这就提出一个要求:我们所作的区间应该将密度值大的点包括在可信区间中最大后验可信区间,2023/4/3,55,定义,设参数的后验分布为,对于给定的概率1-(01)若在直线上存在这样一个子区间(子集)c,满足下列两个条件:1.2.对于任意给定的,总有 成立。则称区间c为的可信水平为1-的最大后验密度可信集。若c是
17、一个区间,则c又称的1-的最大后验可信区间,简称为HPD可信区间。,2023/4/3,56,最大后验可信区间的实际计算,尽管最大后验可信区间的理论分析是非常清楚,含义也很明确,但是实际计算存在困难。关键是要比较密度值的大小。对于的后验分布实际上,有可能是离散分布、也可能是连续分布;也有可能是对称分布,或者非对称分布;还有可能是单峰的分布,或者多峰的分布。这些对于计算最大后验可信区间都是由影响的。,2023/4/3,57,当为离散随机变量时,HPD可信区间很难直接找到(实现),操作上需要将所有的取值的相应概率进行比较。当为连续型随机变量,但后验分布为多峰分布时,最大后验可信区间c可能是几个互不相
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 贝叶斯 统计学
链接地址:https://www.desk33.com/p-263068.html