第二章-贝叶斯决策理论.docx
,(1)-NJN.PWNzfN)假设(类)条件概率密度函数P(X1.3i),j=1.,2,用来描述每一类中特征向展的分布情况.如果类条件概率密度函数未知,凰么可以从可用的训练数据中估计出来.贝叶斯判别方法贝叶斯分类猊那么描述为:如果P(<x)>P(ft>X),那么XG1.如果&助|工)«。2|回.那么丫%(211)贝叶斯分类规那么就是看XG四的可能性大,还是XGg的可能性大。P(iIX),/=1,2解件为当样本X出现时,石蛉微率/'(他IX)和P(A1.X)的大小从而判别为属于勺或属于2类。三种概率的关系贝叶斯公式:Pgg=03D(2-1-3)P(X)其中.P(X)是X的概率.澎度函数(全概率密度:.它等于所有可能的类概率.密度函数乘以相应的先验概率之和.P(X)=£P(XI助)夕他)因为P(X)对于所存的类都是样的,可视为常数因子,它并不影响结果,不考虑“故可栗川下面的写法比拟后脸IK率的大小:p(x)P(P(X1.Q)P(h)那么有XGJ(2-1-4)(I)2二多类的情况 32,”表示样本X所属的个类别. 先龄概率P(姐),=1.2,m假设类条件概率密度函数P(X1.助),1=1,2,小,计算后验概率后,假设:P,IX)>P(,IX)vji那么XG3i类.这样的决策可使分类错误率最小.因此叫做拈于最小错误率的贝叶斯决策.R1.和S3的分界点是p(x!)!)=p(x/i)P(i)的交点.R2和R3的分界点是p(x!(2)P)三p(x(w)P(如)的交点.'1R*Rif&决策域、决策面,决策面方程和判决函数和分类器决策域、决策面、决策面方程时于物类的分类任芬.按照决策规那么可以把多维特征空间划分成m个决策区域凡叫决策城.两个区域用,R.的边界叫决策面,X是一维时,淡策面是一个点:二维时,决策面是一条曲(三)线;三维时,决策面是一曲(平)面:雉时,决策面是一个切曲(平)面。在数学上用解析形式可以表示为用决黄血方置描述.可符决策面存作有正负的界面,对于任一样本X,代入决策面方程左边的多项式,段设是正的说明xe”,:假设为负说明x幼.判别函数4(x)把描述决策规那么的某种函数叫我别应改d,(x),例如4(x)=(P(SIX),其中/()是一个单调上升函数。对于最小错误率的情况,可描述为P(1.Ix)-P(WjIx)-O,用判决函数描述决策面方程更方便.分类号分类器可以看成是由软件或硬件组成的一个“分类的机器”,它的功能是先计算出m个判别函数再从中选出判别函数的大位的类作为决策结果.基于量小错误率的判决规那么的其他形式由P(XIe,)P(e)>p(XIm)P(公),那么XG1.但这种月决规班么,可写成<UU,(2-2-5)假设«0=四处>2,那么有XeHp(x2)<,(i)()2这里把MX1.s)叫做似然函数,把/(X)=如止必叫做似然比,Q=P(幺)P(q)叫做似p(x2)然比脚值。还可以对(2-1-5)式取自然对数的负值,那么有ACr)=-In/(%)=-In/Xx)+1.np(x)假设基于最小错误率的判决规那么的判别函数 判决函数可以写成4(x)=P(X1.利)p(e).M.2,-./M或d(x)=P(tIX).=1.2.m两类问题时,m=2. 判决堤那么可写成:当J1(x)>J1(x),ji时,x<yr;或当Jz(x)=11axP(<y,IX)时,x<w,.不管采用哪一种判决的数,都归属于依据后脸概率最大作出判决,其结果使分类的错设率最小.错误率指平均错误概率,表示为(2-2-9)P(e)=p(e.x)dx=p(ex)p(x)dx对于两类何时假i殳P(S1.x)>P(ftx),那么有xw<i.图2-1-1P(G=£P(2x)p(x)dx+PIX)P(XwX=,p(X16)P(<y,)<1.x+jp(x)P(<i)dx(2-2-11)还可以写成:!e)=P(XG1.)+/XxGR2.1.)=p(xCR1.2)+p(xeR,t)=P(z)1.pix2dx+P(ry1.)/Xxj)dx(2-2-12)=Piz)P(e,)+P(ft)P(e1.)即图中斜线面枳和交叉战面积.第二节基于贝M斯公式的几种判别规那么行时最小错识率准那么并不一定是最重要的或最好指标.对语音识疥、文字识别来说可能这是最支委的相标.有些情况下,宁可能扩大一些总错误率,也要使损失减小,减小产生严贞的后果.因此引入。损失有关联、比损失更广泛的概念一风险.一、.基于最小风险的贝叶斯决策引入损失函数4(6,叼),i=1,N.,=1.26.这个函数表示当X实隔叼类,来取决策为见(却判决为例)所带来的损失.以决策我发示各种情况下的决策损失.如下面的决策我表221三*31/1.A(|)A(,A(a)人(。t8.)«1(aj)A(«2.a»2)(a3wn>*:A(*)(1.w2)A(af.cva)::«(a4w)(.«2)A(4.r,)a(4)这里,“可以等于或大于,大于”,包含了拒绝判决的情况.般,正确的判断要比错误判断的投失小,即以氏,叼)>以见,利),亦即4>4,。条件期望损失RSJx)一(又叫条件风险)对于给定的X的测试(ft.如果采取决第4,4可以在相应行的,"个N,.ej当中任取个.这里/=1,2,1.m,相应概率为P(勺).因此在采取决策,情况下的条件期望损失昭,IX)为:mR(a,1.X)=E(a1.,M)=(a1.coj)P(|x),i=1.2.a(2-2-3)?=1 此式是考虑到了某一行中各种请况下的损失的一种加权平均效果即判断XM于?类时相应于决策,的损失函数以各类后验概率为权王的加权和。式中将Jr来自任何一类的情况都考虑到了,同于某一类的可能性越大,P"""")越大,权由越大。 这里求期不值实际上是求%条件下相对求各类的平均风险。 根据上表,可以计算出。个条件风险R(x).Ria2x).,R(a1.x.期城风险RX是随机向量的测量的,用于X的不同观察值,采取决策a,时.其条件风险的大小是不同的.决策可以看成随机向量X的函数,记为(x),于是我们可以定义期望风险R为:=(r)x)Xx)tZr(2-2-4)式中.公是特征空间的体积元.积分在整个特征空间进行.期里风险R反映对整个特征度间所仃X的取值都采取相应的袂般(x)所带来的平均风险;而条件风险MajX)只是反映了对某X的取值来取决策里所带来的风哙。实际上是对某模式X进行分类判别决策时,算出判断它属于各类的条件期里风险夫(jx),阳%x).,K(ux)之后,判决X周于条件风险的那一类.最小风险贝叶斯决策规那么在考虑描到带来的损失时.我们带望损失最小.如果在采取每一个决策都使其条件风险最小,那么对所有的X作出决策时,其期望风险也必然最小.这样的决策就是最小风险贝H斯决策.最小风险贝叶斯决策班那么为:如果R(aiIx)=nin&勾x),那么有=4(2-2-5).i*1.2w.即在。个条件风险中,选一个最小的,这就是基于最小风险的贝页Wi决策.最小风险贝叶斯决策的步骤(1)在汽叼),p(叼),J=1,2,m,并给出待识别的X的情况下,根据贝叶斯公式可以计算出后验概率:.、P(X!叫)似叫).>(>xIX)=-1Z,)-1.,2,m(226)p(xIa>,)t>(a>,)SI(2)利用计算出的后段概率及决策表,按式(22-3)计算出采取,.二1.2.”的条件风险R(ai/x).(3)对步MU2)中得刎的。个条件风险值R(x).i1,2.”.进行比拟.找出使条件风险最小的决策见,即R("x)=minR(a1.x).那么aj1.就是最小风险贝叶斯决策,说明应该指出的是,最小风险贝叶斯决策除了要有符合实际情况的先验概率P(1.)及类条件概率密度/Xx<yp,y=1,2,m外,还必须要书"适宜的损失函数,(七.勺),i=1.,2,,0,7=1.2.,/M-实际工作中要列出适宜的决策表不易,要根据具体同时分析佛设决策造成损失的严重程度,与专家共同确定.最小错误率与最小风险的贝叶斯决策规那么的联系设损失函数为;A(1.>.)=0'''i,j=1,2,m(2-2-7)'1.»)式中线定时于m类只有=析个决策,即不考虑“拒绝"的情况:时于正确决策(即i=力,4(勾,叼)=0,就是没有损失:而对于任何错误决策,其损失均为1.这样定义的损失函数称为01损失函数,此时,条件风险为:EERtaiIX)=(a,.<u.<yx)=ZP(ix).(2-2-8)J-I制式中,£P("X)表示对X采取决策的,即,的条件错误概率.所以在采用0-1损失函数时.使R(aX)=minPaix)的最小风险贝叶斯决策就等价P(叫X)=MnCW)»I1.1.a=)*JT兴的最小错误率贝叶斯决策.由此可见,最小错误率贝叶斯决策就是在采用Q-I损失函数条件下的最小风险贝叶斯决彼,即前者是后者的特例,二、羲曼皮尔逊决策法考虑两类问题的错误率分别为(e)和4(e)。由于实际工作中常常要求限制某类错误率不得大于某个常数而使另类错误率尽可能小,例如在癌细胞识别中,我们已经认识到把异常误判为正常的损失更为严重,常常要求这种误判为错误率名S)很小,即6(eb,%是一个很小的常数,在这种条件卜.再要求4(e)即把正常误为为异常的错误率尽可能小.所以这样的决策可右成是在Pe)0条件卜,求R(e)极小值的条件极值问甥。Ur以用求条件极值的1.agranxe乘子法解决这一何造,即按1.agranee乘子法建立如下数学模型:(2-2-9)r=>(e)+(>2(e)-0)式中A是1.agrangc乘子,目的是求r的极小值。从式(21-12)可知:%(,)=IP(XIw)dx,j(<)=IpxIo»2)dx(2210;JiJR1式中.周是类别回的区域:为是类别码的区域,而凡+&=&,人为整个特征空间,也就是说,决策作出之后.俗个特征空间分割成不相交的两个区域2和段.我设样本尸落入冬,就判定属广用类.反之那么随于g类.根据类条件概率密度的性质.仃:pixIco)dx=1-P(HI)dx(2-2-11)JR1.JR1.招式(2-2To)代入式(2-2-9),并顾及到式(2-271),可得:r=1.P(HI)d+Jr<*I«=(1-0)+>(xIcu2)-P(WI1)dj(2-2-12;由此式分别对X和/1求导,令包=O及"=0drZ=4S2>(xI<»:)I(xIajdjc=co(2-2-14)满足式(2-2-13)的最正确4值和满足式(2-2T4)的边界面就能使r极小,此时决策规那么可以写为:如果厂黑。,则有工£卜<2-215)pxI<>2或,如果(2216)eu2这种限定一类错误率7为行数而使另一类错误率与最小的决策规瑶么就称为聂笠一皮尔透(NeymanPearson)决策规那么。回忆最小错误率贝叶斯决策观那么式(2T-5),将式(2-2T5)与它比照,可以看出聂姓-皮尔逊决策规居么与最小错俣率贝叶斯决策现那么都是以似然比为根底的所不同的只此出小错误率决策所用的Mitf1.是先验概率之比PgIP(A),而娃理皮尔逊决策所用的制值那么是1.agrange乘f2,它是式(2-2T3)和式(2-2-1力方程的解.但是在高维特征空间求解边界面并非易事.这时可利用慨然比密度函数来确定尤值似然比为G(X)=Pa1.叫)/p(xI.似然比密度函数为p(%)求解力=£P(IIa>2)d1.=Cq(2-2-17)由于p(<yJ60,A(e)是2的单调函数,即当增加时6(e)也逐渐增加,节N->8,那么Pe)1.,因此,采用试探法,对几个不同的尤值计售出鸟(。)后,总UJ以找到一个适宜.的2值,使它刚好能满足鸟修)=埒的条件,兄使小e)尽可能小,仅要得到式(2-2T7)中幺的显式解是不容易的,例1两类二维正态分布模式的均值向增为,w1=(-1.0)r./=(10)r,其秘方非矩阵均为单位矩阵/,即E,=Z=/,其分布如下图2-2-1。现确定=0.0%求聂曼皮尔逊判别道值,因为Mx1.阳)=-cxp-(x-M,1.)r(x-M1)/2J2乃p(x2)=-exp1.-(x,+1.)2+)2cxp-(-f/)z(A-n,)22/r-!-exp-(x1+1.).)2171M工I5)(xI町)所以exp(-24),判别边界为入=exp(-2x)判别式为J与/1之间的关系为<0令J,-1«yXi="1.n于是,在4取不M数值时,可求得不同的y和却的值,如表2-2-2中所列.»2-2-2A4211/21/4y-1.6931.347-i-0.653-0.307*1-0.693-0.34700.3470693<0.0460.089OO1.S90.2580.378由于所给如伯力0.0九故从表中可找到相应的4做,判别式为;。(工Ia1.)>、u,河行<一1卬三、最小最大决氯 最小错误率或G小风险贝叶斯决策都是与先验概率P(i)有关的,如果对给定的X,其Pg)不变,按照贝叶斯淡策规那么,可以使锚误率攒小或风险最小.倒如果P(0j是可变的,或*先对先验概率,*无所知,假设再按某个固定的PM)条件下的袂策规届么来进行决策就往往得不到以小错误率或最小风险。 最小最大决策就是在考虑P(e,)变化的情况下,如何使最大可能的风险为G小,也就是在以差的条件下争取最好的结果. 对于两类问遨,最小最大决策的思路和步骤:(I:Ir先写出期彳风陂和先IM1.E率的关系 收定根失函数u是当X£2时,决策为XWo)的损失:投失函数Zn是当X£码时.决策为X£9的损失:损失函数Z21和22那么是Xe牲时决策为.re幽和X2的摘失。通常错误决策总是比作出正确决策所带来的损失要大,即2>A1.,21>a(2-2-18) 再置定两类区域RI和R2己确定,那么风险R可按式(2-27)=R(a(,x)Ix)pxdx,可写出.R=JR(x)IX)P(X)dx=,R(a,x)p(x)dx+£R(a,X)P(X)dx=f)p(xI)+zP(1)p(xI2)tx+1.H1.P(卬MX1.卬+%P(D,)p(x<,)fZr我们的目的是要分析风险R1.j先验极率P(M)之间的关系.由于时两类情况.U,(<yi)+,(j)=1.(2-2-20)由式(2-2-H)Ip(XI>)dx=1-Jp(jtI)dxR1.J*2那么式12-2-19)可写为;RInm-奴小化般大风险R(P(O1)=,+(/?,-,)/XX/<y,)<1.x+P(y1.)(1.u-,)+(->1.)p(x1.)dx-1.2-n)p(x2)dxR2R1令其=0.可对最小呆大化求解(2-2-21)写成R(P()="+,P("J° 由此式说明了,当P(三)变化时,在R1.和&被确定,不说1PQ)做相应时整的情况下.期里风险"就是先监概率。(他)的线性函数,即8的“他)呈直线关系,如图皿强所示.其中我们考虑当HeJ变化时的各种可能取值情况下的最正确决策。因为在类概率密度函数,损失函数及某个确定的先验概率P(三)时,利用最小风险贝叶斯决策方法,可以找出两类模式样本的分类决策面,把特征空间分割成R1.和R2两局部,使其风险为显小。所以,可以在(0,D区间内,对先验概率P4)取假设下个不同的值,分别按最小风险贝叶斯决策方法确定其相应的两类边界区域,从而计算出其相应的各个最小风险R-,然后就可以得出股小风险与先验概率P(3)的关系曲线曲P(1.),如下图。注意,这时曲线上各点有若不同的R1.和与边界划分,说明随P(q)变化两类边界在不断做调整,从而得出一些列最小风险。 直线CD在曲线上方并曲线在A点相切,其纵坐标凡是对应厂先验概率为8)时的最小风险:直线上点的纵坐标那么是对应于P(q)变化时边界不做调整时的风险值,风险值在(a,+b)的范围内变化,最大风险为+b,其风险要比曲线情况卜大,直线在曲线上方说明了这一点。 如果能找到一个边界使比例常数为b-0,那么风险R独立于先验概率P(电3即以上既是最小最大求解,由式(2-2-21)可知,如果对于某个P(1.),能找出其决策方案使该式中P(三)的系数b=0即风险与汽必)无关。(1.1.-22)+(2-1.)(xI>)dx-(12-A22)。(工*j)dr"°(2-2-22)那么,风险/?为R=Ajj+(j-Ajj)I>(xIo»2)dj=a(2-223)求使b-0的P(R等价于在K4他)曲线关系中求使dR'dP(i)=0的P(卬.显然最小最大决策的任务就是寻找使贝叶斯风险为最大时的?. 图2-2-23)中的B点的横坐标/:(牡)时应于决策方案.使系数b=0,纵坐标对应其贝叶斯风险,过H点的切线C'D'与横轴平行,即此时式(2-2-23)所发示的宜线与曲线相切且平行于。(回)坐标轴,不管。(他)如何变化,共风险都不再变化,其岐大风险等于。,这时就使最大风险最小.综上所述,可以得H1.结论:在作最小风险贝叶斯决策时,假设考虑P(q)有可能改变或对先验概率在无所知的情况,那么应选择使最小贝叶厮风险K为最大值时的Pi)来设计分类,即对应于图2-22(b)中的B点.其中风险K:相对于其他的P(Q)为最大,且能保证不管声Pg)如何变化,最大风险都料为农小,这样的决策就称为最小最大决策“因此,G小报大决第的仔务就是寻找使贝叶斯风险为公大时的两类区域R1.和R2的边界点,它们对应于式(2-2-22)枳分方程的解,在求出使贝叶斯风险为最大时的凡、&以及相应的光股概率W(三)后,最小最大决策规那么就完全与公小风哙贝叶斯决策规那么相似,阳2-2-2图中位于位部的曲的显示了在固定分布的两类柯盟I,最小(贝叶斯.心率“回)的曲鼓,时f一个先的概率值(如P(r)R.25)都行个相关的最优决策边界以及相应的贝叶斯误差率,对于任何这样的(固定M:U界.如果改变先验概率tf1.那么我生戕率珞作为尸(卬的线中忠线所示:他.曲“女变-此提仁的必大一屹现,:工心信守用Hfi处.此图中为Hao=1.为JF小化最大误差,我们将为被大的,!叶斯误敌这里跑P(q)=06)设计判决边界,使得该i,'J:不会Hi公先兼粗车的改变而改变.如图中水平线所小具体设计过程按最小准那么找出对应于(。,D区间的各个不同的P(%)值的G1.E暗分类区域边界,计算相应各个城正确决策域的以小风险,汨R'P(叼)由践,找出使R'取最大伯的P'(,).以后运用P,(1.),b尸(外)及构造似然比阕伯并运用运用以小准JE么下的决策观那么,对具体的模式分类识别,具体的最小最大损失决策规那么为:如果>(>)此二左叫予明那么判X<三岫(Q)XG卜p(2)(42-4。产3)1?当在式3中采用OT损失函数时,由b=o可得p(x2)dx=p(xIG)JdX4*:上式说明,最小缴大损失判决所得的最正确分界面应使两类锵湿麋率相等,由式O可知此时的平均损失K=J/Xx,)dRI显然,R已与P(回)无关,而是一个常数,四、序贯分类决策除了错分类会造成损失外,还须考虑获取特征所花的代价(前述方法是在“个特征同时给出且不考虑获取特征所花的代): 实际处理过程中,为了得到“维特征空间的样本X=(,k.q即X的”个测量值,总要花费一定的代价。也就是说,即使是正确的分类,也会有一定的损失,而且这种损失是分散到为了获得每一个特征所付出的代价上的: 在按落最小条件平均风险R(a,X)决策时,姆个特征对R(a,x)都有不同的影响。,股随存特征数目的增霎,决最风*秋6I幻会降低,同时各个特征对R(,x)的奉献会有一定的份额: 有时获取了&个特征GK加后,进行分类抉策更为合理,因为其余个特征的参加虽然可以使分类错误降低,M少代价(损失),但补偿不了获取这些特征所花费的代价: 序贯分类决策先用局部特征来分类.逐步参加特征以减少分类损失.每步都要衡址参加新特征所花的代价与所降低分类损失的大小,以便决定是继续再参加新相征还是停止.这两种选择都要付出代价,应根据哪种代价小而进行选择.序贯分类决策把X的各个特征按对分类奉献大小排队由大到小逐个符X用于分类过程中.每投入使用一个新特征就计算一次最小条件平均风险,设已取得个特征,其测量值分别为X=。.4=金,此时有两种选择:®根据这A个特征作出殿后的分类诀策(就此结束):再选择异个特征作分类决策(维续进行)。这两种选择都要付出代价,应根据代价小的进行选择。于是设第k步的最小根失代价0mm定义为和恁,)二者中小代价一个,即pm11(i,,O=,ii,a(,“G-“金)其中:氏&,.,以)龙示根据已排得的k个特征的冽麻值.5=。,.占=或作出的分类决策而产生的损失叫停止损失:pc(1.刍)表示再取第*个特征进行分类决策或继续取特征所产生的损失叫继续损失.注&pc(1.金)的写法,括号中表示取k个特征,卜标c表示绑续,总的表示取完k个特征后维续取下一个特征。如果Pnm(O,Q=亿&.),就停止炙序分类过程,使用前*个对分类奉献大的特征作出最后的分类决策.否那么继续获取新特征.停止«1失PA星,)三mn",i)Pi1.,.,k)-H说明:火(?|幻=£123.%)=之川%.卬/(91)是(取所有”特征)果取第i种决策情况下的J-I条件期里损失;2Sai.t)P(i。.,1.)是在共有»个特征但只取k个特征时的条件期里损失:共有n个(不计拒判,TOa=m)这样的条件期拒损失.min是取,”种决策中条件期钳损失中最小的一=1.2.,nr个来定义停止损失0s(白,短).维续损失pc(i,耳)表示取完k个特征内取第-1.个特征而分类;IE,或淮续取新特征所产生的损失叫维续畏失“由于XE在我取涮业值之前是朋机受收,假设获得XH继续作序货分类决策,笫&+1步的最小代价的期望值是J夕m«i(却,$,XAM)/X4,1I。,"”刍)公"1,22-2.>J式中P(XhJ点,,金)是前K个特征己获得,关于天“的条件概率率度,上式是在N=。,,xt条件下最小平均风险的平均值.再假设获知第妙1个特征所拓要的代价是g*“.那么第步的继续损失是Pt(t,.,t)=g*,+J,/。,福田”)/XXA“I京,短)(应7最小条件平均风险由式(2-2-28)可知,为了计算第A步限小损失Pmrt(。.刍).必须计豫第HI步的G小平均风险又叫,£以生.?)户(明.|。,.<.<,i):同样,为T得到第IH步的最小横失外“小.x1,1).需要计算第H2步的最小条件平均风险.mint(a,t)P(ii1.t.2)宜到计算在三2.11所有特征条件下的最小损失,即在所有特征条件下的地小条件平均风险r呼11)P(<4I,.,va,1,.,t)|.(2-2-29)才能正确决断序贯分类过程是否应该停止在第k步。这种方法的计算状和存储J1.t都要求很大,因此开展了一系列次优的序赞方法,我主要的假定是在第志步作决策时只要考虑到H“步,即决策一定停止在第4步和Z"步之间.例如可以取U等于2.这就大大战少了计算工作fi1.为了进一步到达序贯分类的效果.还要进行特征的排序,这将在别的章节里展开讨论.三节正态分布模式的统计决策(一)正忠分布概率密度*数的定义及性质正态分布的概念.图2-3T单变出正态分布概率由度函数实践中最常遇到的概率密度函数是高斯密位(正态密度)函数,流行的原因主要有两方面:,数学上的管便性,除了些极具简单与不甚实用的统计分布模型外.正态分布可说是数学上最简便的一种.数学的简便性便于人们对统计识别方法进行数学分析.正态分布的一些特殊情况还会揭示统计判别方法中许多有捶的性侦,有助于我们对统计判别方法加深理解C2物理上的合31性,缺少这一条不可能得到如此广泛的应用.在许多实际应用场介,如果同一类样本在特征空间内Ha实较集中地分布在其类均值的附近,远离均值处分布较少,般情况下以正态分布模型近似往往是比拟合理的.人们也往往因数学分析复杂程度考虑而不得不采用这种模型,当然使用时应注意结果是否合理或关注其可接受的程度,正态分布是指个的机实数的度显值在整个实数域上的分布规律.因此它属于概率密度函数类.即类笈朴概率*0帆数P(XI©)。假设在“维特征空间中,?对于X的似然函数遵循多元正态密度函数,(二)单变量一元正态留度函数Mx)="(W)=(单变量X可看成X的特殊情况,既一维向量X=W1.不用写成黑体字*.而将P(X)写成MK1.ej是为了强调类别例这个条件)这里: 为随机变Stx的数学期望(均侪).-oo<z<4oo.=£(x=xpxdx(2-3-2) b'为陆机变址X的方差:。为均方差(标准差).'=M(K-"=:(x-/O?p(x)dr(2-3-3) 概率的度函数P(X1.Q)或P(X)完全由两个参数和,确定.满足以下关系式.p(x)0(-oo<<).(2-3-4)(2-3-5) 正态分布的样本主要柒中在均做附近,其分故程度可以用标准差来表征,越大分散程度越大.从正态分布的总体中抽取样本,约有95%的样本落在区间(-26.+26,或写成x-"2b.(二)多元正态密度西敷1 .对IR单如正态密度函数的型式写出多元正态密度的数一元正态密度函数的指数中,以总位均方差为尺度,来测量X到均值的距离的平方即(3)2=-)T()均值可看成是位移因G由它决定YPaIq)曲线的位置.多元正击密度函数与上式对照,易得:.(x-),'(x-(这里向量x,和矩阵E要写成黑体字)式中,X=,t2,.,r是维特征列向破.3是X的第i个分尿:=R、小,,f是”维均值列向城,片是“的第,个分璜:“是X的均值,是%的均值.即(2-3-9)M=国内=JXmX)dx=1.Xm(XjdXi其中,MX)是第i个分双的边缘概率密度分布.J1.里猊分P(X1)=J,Jp(X)dv1.dx2.2/V1_1(ixm.dxn>R枳分P(X1)=r-z/X'>.r,Xjdxdx2.dxidxi.dxn共中.Ej是"n淮协方差矩阵,是矩阵(X-M(X-尸的数学期望,下标i我示类别,ET是其逆阵,I£I是E行列式一元(单交二)正态密度函数中的常数因子,-7=,一72*b(2tY2zY2多元正态密度函数中的常数因子,(2¾多元正&密度函数的豪达式J=由亢严MT"-"2-'"-",'三1.2,.,/(236).i(-典C)I(%一必)(M-M),(x1-2)(一“)U2-/A)Cq一人)一”)(x1-,Mx,-z1).(,-1)(x-jmJ=E(公-.Mx,-.).(%-.)(x,-心(xr-jU.Mx,-A,).x,-x,-,-j是2的第i,j个元素:27=£(%-XX厂0E(x1.-/1)(A1-/1.)|EKXXN1.-M)11(ai-z1.)(x2-/,).f1.(.v2-2)(xi-2).EI(A1.-Zz1)(Xn-ZZn)E(x2-i)(xu-1.)闽区-"nXX-M)旦(X一4)也-&UI-M,)(工一G1.=.(七-")(X厂巧)7M,.,/)必心“,G.j=12,鹿)当i=j时,。2仃为七的方差,它是办方差矩阵E对角戏上的元素:当iW0寸,2ij足X的第个i分小七和第j个分量XJ的例方差。一微心=2t.因此是对称矩阵。方差矩阵是非负定矩阵(半正定),只考虑正定矩阵情况,>0.2.多元正笈分布的有关性质(。效和E对分布的决定性多元正态分布由均值向盘和工协方差矩阵完全决定.均值向量是维向盘,协方差矩声E是对称矩阵,其独立元素只有“S+D/2个,多元正态分布是由r»(n")/2个参数确定的.记为P(X)-M")(2等密度点的轨迹为一JfiH球面 从正态分布总体中抽取的样本大局部落在由和工协定的,个区域胆,这个区域的中心由均值向决定,区域的大小由协方差矩阵E决定。从多元正态概率密度函数的表达式可以布小,当指数项为常数时,密度值同工)不变, 等密度点应是使式的指数项为常数的点,即满足(x-)r'(x-)=M(2-3-13) 可以证明上式的解是个超椭球面,其主轴方向由矩阵X的本征做决定,主轴的长度与相应的协力若如年X的本征隹(成正比,数理统计中称上式中的常.数所表示的数最(.x)r'(x-)=y2(2-3-14)叫做等密度样本点X到均值点的Maha1.anobis距离的平方,。所以等密度点的轨迹是X到的Maha1.anobis距离为常数的超椭球面。G)不相关性等价于独立性 不相关的定义,假设1.tx1.xj=Ex1.Exi(教材中印错门那么定义随机变量阳和巧是不相关的, 独立的定义:假设苦户,的联合概率等于各自的概率P(KJ、P(X,)之积,即P(J,)=P(XJP区),那么定义随机变依士和是独立的。 独立是比相关更强的条件,独立性要求两个随机变MX,和X,的戕率等各门概率的乘积,而不相关要求要求两个随机变球*和/的枳的数学期望等于各自的数学期望的乘积,假设七和是独立的,那么K,和Xj是不相关;反之,刖么不一定成立.只有在随机变收儿和X,的分布规律服从正态分布时,它们之间的不相关才与独立等价。证明I根据阳和,互不相关的定义,有2ij=E(x1-,)(.rj-,)E(x1.-,)E(xt-j)=0,»=1.2.»n:ij因此例方差矩阵就成为对角阵Eb;0.0=°%“°(2-3-17)00.于是进而有I/Oi1.(2-3-18)W=11-r-1.I展=n/r-1.(X-)r'(x-)IXI-M,X11-A1I=0所以p(x,)=H=11M11V-/<2.(2-3-I9J(2-3-20)(2-3-21)(2-3-22)=11pU)r-1.由以上证明还可以得个盅要的推论.推论如果多元正态随机向显X-xi.x2.,x,的协方差矩阵是对用阵,那么X是相互独立的正态分布随机受fit.(4)边缘分布和条件分布的的正方性多元正态分布的边缘分布和条件分布的仍然是正态分布,即对于正态分布随机变Ift*=斗,“.,匕其任意分出的分布为:p(xi)N(.)在给定$的条件下七的分布为P区=3扃E严exp卜翁(Xr冷”-ZO1.2P(XM)的估计.迭代式为了方便,将上式写成迭代式,以C/N)代表由N个样本求得的系数,如在参加一个样本,G就写成CJN+D=-X(x,)=INe(N)+/(XNu)111.*'I式中由第一个样本确定的系数G=0,(j.利用迭代可简化G的计算.利用基函数方注意以下三点(1)选择域函数来近似未知的您度函数,其近似性能与基函数的项数,”有关。因为不知道P(X),这就不能用直接比拟的方法去试验P(X)的近似性能.但热计算MX)必为了谀计贝叶斯分类器.因此就UJ以用分类港的识别性能来试验即用训练样本集来宜接试物.假设采用这种P(X)设计的贝叶斯分类器性能很差,可通过增加基函数的项数来改善WX),看能否提高分类器的性能这样不断施增加顶数,C1.到性能到达“饱和”,或项数多到不能接受的程度为止。<2)基函数类型的选择要适宜.假设P(X)本质是正弦函数,这时检设把力(X)按多项式函数来展开.所需项数就大为增多。由于没仃P(X)的先验知识,所以只能按易尸实现的条件来选择丛函数,但它必须是线性独立的.在某些适宜的条件下.可以证明mco和N8,那么/Xx)TP(X).(3)拿维情况下,要选择适宜的基函数并稣出其系数不容易-