2023人工智能机器算法概率模型学习.docx
《2023人工智能机器算法概率模型学习.docx》由会员分享,可在线阅读,更多相关《2023人工智能机器算法概率模型学习.docx(40页珍藏版)》请在课桌文档上搜索。
1、人工智能机器算法概率模型学习目录1.1 统计学习31.2 完全数据学习8121最大似然参数学习:离散模型81.2.2 朴素贝叶斯模型111.2.3 生成模型和判别模型131.2.4 最大似然参数学习:连续模型131.2.5 贝叶斯参数学习151.2.6 贝叶斯线性回归19127贝叶斯网络结构学习221.2.8非参数模型密度估计24L3隐变量学习:EM算法271.3.1 无监督聚类:学习混合高斯281.3.2 学习带隐变量的贝叶斯网络参数值31133学习隐马尔可夫模型351.3.4 EM算法的一般形式361.3.5 学习带隐变量的贝叶斯网络结构37小结39在本文中,我们将学习视为一种从观测中进行
2、不确定的推理的形式,并设计模型来表示不确定的世界。我们在第12章中指出,现实环境中的不确定性是普遍存在的。智能体可以利用概率论和决策论的方法来处理不确定性,但它们首先必须从经验中学习到关于世界的概率理论。本文将通过学习任务表述为概率推断过程(20.1节)的方式解释它们如何做到这一点。我们将看到贝叶斯观点下的学习是非常强大的,它为噪声、过拟合和最优预测问题提供了通用的解决方案。本文还考虑这样一个事实:一个非全知全能的智能体永远不可能确定哪种描述世界的理论是正确的,但它仍然需要选择一种理论来进行决策。1.1统计学习本文的核心概念与第19章的一样,是数据和假设。在这里,数据可以看作证据描述相关领域的
3、一部分随机变量或所有随机变量的实例;假设是关于相关领域如何运作的一些概率理论,逻辑理论是其中的一个特例。考虑一个简单的例子。我们喜欢的某款惊喜糖果有两种口味:樱桃味(好吃)和酸橙味(难吃)。糖果的制造商有一种特殊的幽默感-它对两种口味的糖果采用同样的包装。这些糖果统一分装在同样包装的大糖果袋里进行售卖,因此我们无法从袋子的外观上辨别袋中的糖果口味,只知道它们有5种可能的组合方式:历:100%樱桃味h2:75%樱桃味+25%酸橙味h3:50%樱桃味+50%酸橙味h425%樱桃味+75%酸橙味/15:100%酸橙味给定一袋未拆袋的糖果,用随机变量”(以代表假设)表示糖果袋的类型,其可能的值为从阳至
4、5。当然,H不能被直接观测到。但随着袋中的糖果逐颗被打开与辨认,越来越多的数据也逐渐被揭示我们记为其中每个Q是一个随机变量,其可能的值为cherry(樱桃味)或Iime(酸橙味)。智能体要完成的基本任务是预测下一块糖果的口味。山尽管从表面上看这个情景很简单,但它还是引出了许多重要的问题。智能体确实需要推断出一个关于其所在“世界”的理论,尽管这个问题中的理论很简单。1.U有一定统计学基础的读者可以发现该情境是瓮与球(um-and-ball)情形的一个变种。我们发现相比瓮与球,糖果更容易令人理解与信服。贝叶斯学习(Bayesianlearning)是指基于给定的数据计算每个假设发生的概率,并在此基
5、础上进行预测。也就是说,这个预测是通过对所有假设按概率加权求和所得的,而不是仅仅使用了单个“最佳”假设。通过这种方法,学习就可以归约为概率推断。令。代表所有的数据,其观测值为九贝叶斯方法中的关键量是假设先验Psi)和在每个假设下数据的似然31儿)每个假设的概率可以通过贝叶斯法则得到P(hid)=aP(dIl)P()(20-1)现在,假定我们想要对一个未知量X做出预测,那么我们有P(Xm)=EP(Xm)PS (20-2)其中每一个假设都参与决定了X的分布。这个式子说明预测是通过对每个假设的预测进行加权平均得到的,其中根据式(20-1)可知,权重Pej与假设%的先验概率以及它与数据的拟合程度成正比
6、。从本质上说,假设本身是原始数据与预测之间的一个“中间人”。对于上述糖果示例,我们暂定假设力,.,佐的先验分布为01,020.4,0.2,0.1),正如制造商在广告中宣传的那样。那么在观测是独立同分布(见19.4节)的假定下,数据的似然可以按如下方式计算:Pmm)=尸也)/(20-3)举个例子来说,假定一个糖果袋是一个全为酸橙糖果的糖果袋(%),并且前10颗糖果均为酸橙味,因为在心糖果袋中只有一半的糖果为酸橙味,所以PI必)将为05。图20-Ia给出了5种假设的后验概率随着10颗酸橙味糖果逐颗被观测的变化过程。注意,每个概率是以它们的先验概率值作为出发点,因此/23是初始状态下可能性最大的选择
7、,在观测到1颗酸橙味糖果后也是如此。在打开2颗酸橙味糖果后,鱼是可能性最大的。打开3颗后,A5(可怕的全酸橙糖果袋)是可能性最大的。连续10次之后,我们认命了。图20-Ib表示我们对下一颗糖果为酸橙味的概率预测,它基于式(20-2)o正如我们所料,它单调递增,并渐近于1。121我们事先说明过糖果袋中的糖果数目非常多;否则,独立同分布的假设将不成立。严格来说更为正确(但是更不卫生)的做法是在分辨出糖果口味后重新包装糖果并放回袋中。观测d的数所圣窣匚u_ _ 一 9 8 7 SaaI 6 5 O.asws逑w 京 GI 工(a)(b.)图20l(a)根据式(20-1)得到的后验概率Pmj4,,4观
8、测数量N为I10,且每一个观测都是酸橙味的糖果。(b)基于式(20-2)的贝叶斯预测P(DNX=Hme:4,,dj这个例子表明,贝叶斯预测最终会与真实的假设吻合。这是贝叶斯学习的一个特点。对于任何固定的先验,如果它没有将真实的假设排除在外,那么在一定的技术条件下,错误假设的后验概率最终会消失。有这样的结果仅仅是因为无限地生成“反常的”数据的概率非常小。(这一点类似于第19章中关于PAC学习的讨论。)更重要的是,无论数据集大小,贝叶斯预测都是最优的。给定了假设先验之后,任何其他预测都不太可能正确。当然,贝叶斯学习的最优性是有代价的。对于真实的学习问题,如我们在第19章中所见,假设空间通常非常大或
9、无限大。在某些情况下,式(20-2)中的求和(或连续情况下的积分)可以容易地计算,但在大多数情况下,我们必须采用近似或简化的方法。一种常见的近似方法(在科学研究中经常采用的)是,基于单个可能性最大的假设使常仇据大化的进行预测。这样的假设通常被称为最大后验(maximumaposteriori,MAP)假设。从产(Xlrf)P(XAAP)的意义上来说,由MAP假设%”所做出的预测近似于贝叶斯方法所做出的预测。在我们的糖果例子中,在连续3次观测到酸橙糖之后有MAP=%5,因此MAP学习器预测第四颗糖果是酸橙糖的概率为1。这比图20-Ib所示的贝叶斯预测概率0.8更有风险。随着数据量越来越多,MAP
10、预测和贝叶斯预测将变得越来越接近,因为与MAP假设竞争的其他假设的可能性越来越低。找到MAP假设通常比贝叶斯学习更简单(尽管在这个例子中没有体现),因为它仅要求求解一个优化问题,而不是一个大规模求和或积分的问题。在贝叶斯学习和MAP学习中,假设先验P(4)都起着重要的作用。我们在第19章中看到,当假设空间表达能力过强时,也就是说,当它包含许多与数据集高度一致的假设时,可能会出现过拟合。贝叶斯学习和MAP学习利用先验知识来约束假设的复杂性。通常情况下,越复杂的假设对应的先验概率越低,其中部分原因是它们数量太多了。但是,越复杂的假设拟合数据的能力越强。(一个极端的例子是,查表法可以精确地拟合数据。
11、)因此,假设的先验体现了假设的复杂性与其数据拟合程度之间的权衡。在逻辑函数的情况下,即“只包含确定性的假设(例如/表示所有的糖果都是樱桃味),我们可以更清楚地看到这种权衡的效果。在这种情况下,如果假设用是一致的,邮则为1,否则为0。此时注意式(20-1),我们发现既必尸将是与数据一致的最简单的逻辑理论。因此,最大后验学习自然体现了奥卡姆剃刀。另一个看待复杂性和拟合程度之间权衡的观点通过对式(20-1)的两边取对数体现。此时,选择使PI幻P仇)最大化的72MAP等价于最小化下式:-IofeP(dIl)-log,P(hh利用我们在19.3.3节中介绍的信息编码和概率之间的联系,我们可以看至卜1。即
12、P仇)等于说明假设用所需的位数。此外,ToeP(dM)是给定假设时说明数据所需的额外位数。(为了更好理解,我们可以考虑,如果假设确切地预测了数据,就好像假设为后和一连串出现的酸橙味糖果一样,那么此时我们不需要任何额外位数,贝MogJ=0。)因此,MAP学习所选择的是能最大程度压缩数据的假设。同样的任务可以通过称为最小描述长度(MDL)的学习方法更直接地阐述。MAP学习通过给更简单的假设赋予更高的概率来体现其简单性,而MDL则通过计算假设和数据在二进制编码中的位数来直接体现简单性。最后一个简化是通过假定假设空间具有均匀先验分布得出的。在这种情况下,MAP学习被简化为选择一个使PaI外最大的团。这
13、就是所谓的最大似然(maximum-likelihood)假设,Amlo最大似然学习在统计学中非常常用,是许多不相信假设先验主观性质的研究者所使用的准则。当没有理由采用某个先验或倾向于某个假设(例如所有的假设都同样复杂)时,最大似然是一个合理的方法。当数据集很大时,假设的先验分布就不那么重要了,因为来自数据的证据足够强大,足以淹没假设的先验分布。这意味着在大数据集的情况下,最大似然学习是贝叶斯学习和MAP学习的一个很好的近似,但在小数据集上可能会出现问题(我们将在后面看到)。1.2完全数据学习假设我们要学习一个概率模型,给定数据是从该概率模型生成的,那么学习这个概率模型的一般性任务被称为密度估
14、计(densityestimation)0(密度估计最初用于连续变量的概率密度函数,但现在也用于离散分布。)密度估计是一种无监督学习。本节将介绍其最简单的情形,即拥有完全数据的情形。当每个数据点包含所学习的概率模型的每个变量的值时,我们称数据是完全的。对于结构固定的概率模型,我们注重于参数学习(parameterlearning),即寻找其参数数值。例如,我们可能对学习具有给定结构的贝叶斯网络中的条件概率感兴趣。我们还将简要地探讨结构学习和非参数密度估计问题。1.2.1 最大似然参数学习:离散模型假设我们从一个新的生产商手中买入了一袋可能含有樱桃味和酸橙味糖果的糖果袋,其中糖果口味的比例完全未
15、知。樱桃味糖果所占的比例可以是0和1之间的任意一个数。在这种情形下,我们将有一个连续的假设集。这种情况下的参数记为仇表示樱桃味糖果所占的比例,其对应的假设为心。(此时酸橙味糖果所占的比例恰好为1-仇)如果我们假设所有的比例有相同的先验可能性,那么采用最大似然估计是合理的。如果我们使用一个贝叶斯网络对这种情境建模,则只需要一个随机变量一力次(对应于从袋中随机选取一颗糖果的口味),它的值为Cherry或者Iime,其中CheiTy的概率为。(见图20-2a)。现在假设我们已经打开了N颗糖果,其中有C颗为樱桃味,=乂颗为酸橙味。根据式(20-3),该特定数据集的似然为PW也)=11p(4也)=为。4
16、片1最大似然假设所需的参数即为使得上式最大化的参数仇由于Iog函数是单调函数,我们可以通过最大化对数似然(loglikelihood)来得到同一个参数值:N1.(dIh)=logP(h)=XlogP(ty)=clog。+2log(l-)7三1(通过取对数,我们把数据乘积归约为数据求和,通常这更易于我们将其最大化。)为寻找使得似然最大的仇我们对L关于龌行微分并令其微分结果为0:dL(dh0)cZdf).0-0那么最大似然假设力ML将断言,糖果袋中樱桃口味的真实比例是到目前为止所打开观测到的糖果中樱桃口味的占比!从表面上看,我们做了大量的工作却得到了一些看上去很显然的结果。但实际上,我们已经给出了
17、最大似然参数学习的标准方法,这是一种应用范围广泛的方法。(1)将数据的似然写成关于参数的函数的形式。(2)写下对数似然关于每个参数的导数。(3)解出使得导数为0的参数。最后一步通常是最棘手的一步。在我们的例子中它是简单的,但我们即将看到,在很多情形下我们需要使用迭代求解的算法或其他数值优化方法,正如我们在4.2节所提到的。(我们将需要验证其黑塞矩阵是负定的。)这个例子还说明了最大似然学习中普遍存在的一个重要问题:当数据集非常小以至于一些事件还未发生时如,还没有樱桃味的糖果被观测到最大似然假设将把这些事件的概率置为0。有很多技巧可以用于避免这个问题,例如,我们可以将所有事件发生次数的计数初始化为
18、1而不是0。图202(a)樱桃味糖果和酸橙味糖果比例未知情况下的贝叶斯网络。(b)包装颜色(依概率)与糖果口味相关情况下的模型让我们来看另一个例子。假设一个新的糖果生产商希望通过使用红、绿两种不同颜色的糖果包装来给顾客一点关于口味的小提示。在选定一颗糖果后,其包装在概率上服从某个未知的条件分布,该分布取决于糖果的口味。图20-2b给出了对应的概率模型。该模型有3个参数,即0、4和劣。有了这些参数,我们可以从贝叶斯网络的标准语义(见13.4节)中得到观测到一颗带有绿色包装的樱桃味糖果的似然:P(FlaVor=cherry,FFropper=green|力4可为)=P(Flavor=cherryh
19、f2)P(Wrapper=greenFlavor=Cherry,力仇即&)=e(-4)现在假设我们打开了N颗糖果,其中C颗是樱桃味的,0颗是酸橙味的。包装的计数如下:仁颗樱桃味糖果的包装为红色,/颗樱桃味糖果的包装为绿色,颗酸橙味糖果的包装为红色,处颗酸橙味糖果的包装为绿色。则该数据的似然为Pml%岛a)二夕。一切.毋a-卢毋a-2r这个式子看起来非常糟糕,取对数会有帮助:=fClOg6+log(l-0)1+rclog+gelog(l-4)+rflog仇1Og(I-取对数的好处显而易见:对数似然的具体形式是3项求和,其中每一项包含单独的一个参数。当我们令对数似然对每个参数求导并置为0时,我们得
20、到3个独立的方程,其中每一个方程只含有一个参数:C-0-S-C-Uc+2_gc_0-S4?C714i-a1rcSc=L-=O=2=1一仇+g,其中参数。的结果与上一个例子相同。参数&的解,即一个樱桃味糖果有红色包装的概率,是观测到的樱桃味糖果中红色包装的比例,参数劣的解也与之类似。这些结果看上去非常简洁,并且容易发现我们可以将它推广到任意的条件概率以表格形式呈现的贝叶斯网络。其中一个最关键的要点在于,一旦我们有了完全数据,贝叶斯网络的最大似然参数学习问题将可以被分解为一些分离的学习问题,每个问题对应一个参数。(非表格形式的情形见习题20.Nc)RX,其中每个参数将影响若干个条件概率。)第二个要
21、点是,给定其父变量,变量的参数值恰好是该变量值在每一个父变量值下观测到的频率。和之前所提到的一样,当数据集很小时,我们仍要小心地避免出现0次事件的情况。1.2.2 朴素贝叶斯模型机器学习中最常用的贝叶斯网络模型是在第13章中介绍过的朴素贝叶斯模型。在该模型中,类变量C(将被预测)称为根,“属性”变量X,称为叶。该模型被称为是“朴素的。因为它假设属性在给定类的情况下是相互条件独立的。(图20-2b中给出的模型是一个朴素贝叶斯模型,具有类产/卯”和唯一属性WWP)在变量为布尔变量的情况下,其参数为O=P(C=true),OiI=P(Xi=trueC=true),n=P(Xi=trueC=false
22、)寻找最大似然参数值的方法与图20-2b中使用的方法完全一样。一旦模型已经用该方法训练完成,它就可以被用于给类别C还未被观测过的新样例分类。当观测到的属性值为X,.,4时,其属于某一类的概率由下式给出:P(Cx1,-,xn)=P(C)11P(x1.C)通过选择可能性最大的类,我们可以获得一个确定性的预测。图20-3给出了将该方法用于第19章中的餐厅等待问题所得到的学习曲线。该方法学习得相当好,但不及决策树学习;这是合理的,因为真实的假设是一个决策树,而决策树不能被朴素贝叶斯模型准确地表达。朴素贝叶斯在很多实际应用中的表现令人吃惊,它的增强版(习题20.BNBX)是最有效的通用学习算法之一。朴素
23、贝叶斯可以很好地推广到大规模的问题上:当有个布尔属性时,我们只需要2+1个参数,且不需要任何的搜索就能找到朴素贝叶斯最大似然假设最后,朴素贝叶斯学习系统可以很好地处理噪声或缺失数据,并且能在这类情况发生时给出适当的概率预测。它们的主要缺点是,条件独立性假设在实际中通常不成立;正如我们在第13章中所说,该假设会导致对某些概率做出过度自信的估计,使得它们接近0或1,尤其是在具有大量属性的情况下。0.4IIIII020406080100训练集大小图203将朴素贝叶斯学习应用于第19章餐厅等待问题得到的学习曲线;决策树的学习曲线也在图中给出,用于比较1.2.3 生成模型和判别模型接下来我们将区分两种不
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 人工智能 机器 算法 概率 模型 学习
链接地址:https://www.desk33.com/p-1081751.html