Information Gain[資訊獲利的算法]—.docx
InformationGainljR狸利的算法一利即“测就前的资量”减彳爰的量Gain(A)=/(p,ri)-E(A)j(P,Pnn常或皆不卷0MPM二一片噫再一再噫有/(p,)=o常或任一0E哆*")年龄婚姻收入<30军身高否<30军身中否>=30军身低是>=30已婚中否>=30已婚低否>=30已婚低否>=30已婚中否<30阜身高否<30已婚低否>=30已婚中否<30已婚高是>=30已婚中否>=30军身中是>=30已婚低否>=30军身中是<30军身低否所有檬本P(S)N(不曾置龄娥412年龄PN<3015>=3037婚姻PN军身34已婚18IftAPN低15中25高12若100彳固客,50®WH,50彳固不曾黄,即J/(5O'5O)=",og23-3log2=一%)f=1若100彳固BR客,99fflH,1彳固不曾黄,印J/(99.1)=-log,-Iog2=0.081',100-1001002100所以若是分配越平均(50,50),即量大.;所以若是分配越一致(1:99),量小微L度小),分的目的就是希望-I:未分前的量A咸去VE:依照某fJ爵性分的子集合之资言乱量和如上表:分割之前,124彳固有黄甯(P)未分前的量卷:;(4,12)="-log2-log2-=-i(-2)-(-0.124938737)=0.5+lg(3/4)*0.75=0.5+0.311278124=0.81131616161644往下分,可依婚姻,收入,年龄分,比较3匐第性,Jg取InformationGain最大的来分枝所有檬本P()献412年龄PN3015=3037依照年龄:符16位IR客分成雨群幺且:年龄30的械率(1+5)/16,而p=l,N=5/(1,5)=-J-log,i-log,-=-!-(-2.5849625)-(-0.263034406)=0.6522422666666年龄=30的檄率;(3+7)16,而p=3,N=73377/(3,7)=-i-log2-log2-=(-(310)*lg(3/10)-(710)*lg(7/10)=0.881290899E(age)=/(1,5)+/(3,7)=0.243758408+0.550806812=0.79461616Gain(A)=I(p,ri)-E(A)Gain(年龈=0.8113-0.7946=0.0167依照婚姻:W16位IR客分成雨群所有檬本P(X)N(不曾翼甯腌)依次列出InfOrmatiOnGain献412婚姻PN军身34已婚18E(婚姻)=所有檬本P(S)阳彳曾整掰献412½APN低15中25高12G而(婚姻)=依照收入:符16位客分成3群幺且:依次列出 Information GainE(收入)=GaM收入)=由root(根黠)第一彳固分支的JS性鹰逗那一彳固?未婚的下一彳固分支黠何,假IS第一彳固分支婚姻?由婚姻可分卷2支,f已婚,另一;未婚年龄婚姻收入黄肇言己型甯<30军身高否<30军身中否>=30罩身低是<30军身高否>=30军身中是>=30军身中是<30军身低否言青算出i一屑的I,(3,4)=E,(age)=Gain,(age)=E'(收入=)GaiIf(收入)二X已婚的下一彳固分支黠何,假第一彳固分支M3婚姻?年龄婚姻收入>=30已婚中否>=30已婚低否>=30已婚低否>=30已婚中否<30已婚低否>=30已婚中否<30已婚高是>=30已婚中否>=30已婚低否所有檬本P(M)N(不曾翼重腌)mm18年龄PN<30>=30(l,8)=E,(age)=Gain,(age)=E'(收入=)Gain,(收入)二s:未婚的下一(S分支MJ翦性?SiS那一彳固?