2024新一代联邦学习技术及应用实战.docx
《2024新一代联邦学习技术及应用实战.docx》由会员分享,可在线阅读,更多相关《2024新一代联邦学习技术及应用实战.docx(36页珍藏版)》请在课桌文档上搜索。
1、新一代联邦学习技术及应用实战导读:随着大数据的进一步发展,重视数据隐私和安全已经成为了世界性的趋势,同时,大多数行业数据呈现数据孤岛现象,如何在满足用户隐私保护、数据安全和政府法规的前提下,进行跨组织的数据合作是困扰人工智能从业者的一大难题。而“联邦学习将成为解决这一行业性难题的关键技术。今天会和大家分享下微众银行主导的新一代联邦学习技术及应用,而FATE则是联邦学习落地的一个工业级开源平台。今天的介绍会围绕下面五点展开:o联邦学习背景介绍o纵向联邦学习o横向联邦学习O应用案例OFATE:联邦学习开源平台I联邦学习背景介绍首先和大家分享下联邦学习的背景。1 .AI落地的理想与现实Al落地:理想
2、VS现实数据质量好标签数据充足数据质地差缺乏标签数据数据集中数据分散隔离昔日的人工智能老大哥,IBMWATSON为什么现在会破看作一个笑话?“80%壮的企U华田姬In岛问虺(informationsilos)TwittertaughtMicrosoft*sAIchatbottobearacistassholeinlessthanadavm:无法了解基因与疾病的关系(只有医生可以蛤数Ig打标签),买数据?Verity1.ifeSciences有一万名神睹,!我们知道AI落地的时候,会遇到很多现实的问题:O现实中,我们的数据质量是非常差的,比如聊天数据中有很多噪音;O数据标签,收集是比较困难的,很
3、多场景中的数据是没有标签的;O数据是分散的,(这也是最重要的一点)每家应用的数据不一样,比如腾讯用的是社交属性数据,阿里用的是电商交易数据,微众用的是信用数据,都是分散来应用的。现实中,如何进行跨组织间的数据合作,会有很大的挑战。2 .国内数据监管法律体系研究国内数据监管法律体系研究国家法律I行政;法规11部门规章I全国人民代表大会常务委员会关于加强网络信息保护的决定I刑法修正案九T2009.01.282012.12.288.03.172018.07.122018.08.312015.08.292016.11中华人民共和国网络安全法I数据安全管理办法!(征求意见稿)1一严格化2019.05.2
4、8.一二1.1I刑法修正案(1.)II科学数据管理办法I愎尊歌餐舞器汨I中华人民共和国电子商务法全面化严格化:数据控制方贵任明确,刑罚到自然人全面化:各领域数据管理细则密集出台,用户授权+监管部门府批HeBanku从09年到现在的10年时间内,国家关于数据的法律条例是趋向于严格化的,同时趋向于全面化,每个细分领域都纷纷出台了相应的条例和条款。相对来讲,让之前可行的一些数据合作方案变得不太可行。3 .基于联邦学习的技术生态基于联邦学习的技术生态HeBank针对上述问题,微众银行提出了基于联邦学习的技术生态,特点如下:o数据隔离:联邦学习的整套机制在合作过程中,数据不会传递到外部。o无损:通过联邦
5、学习分散建模的效果和把数据合在一起建模的效果对比,几乎是无损的。O对等:合作过程中,合作双方是对等的,不存在一方主导另外一方。O共同获益:无论数据源方,还是数据应用方,都能获取相应的价值。4 .联邦学习的分类体系样本纵向联邦学习的联邦迁移学习横向联邦学习联邦学习的分类体系样本HeBank联邦学习的分类体系,包括:O纵向联邦学习,两个数据集的用户(U1.U2,)重叠部分较大,而用户特征(X1.X2,.)重叠部分较小;O横向联邦学习,两个数据集的用户特征(X1.X2,.)重叠部分较大,而用户(U1.U2,.)重叠部分较小;o联邦迁移学习,通过联邦学习和迁移学习,解决两个数据集的用户(U1.U2,.
6、)与用户特征重叠(XI,X2,.)部分都比较小的问题。下面,重点分享下纵向联邦学习和横向联邦学习。I纵向联邦学习1 .联合建模需求场景纵向联邦学习联合建模需求场景举例:微众与合作企业联合建模,微众有Y(业务表现),期望优化本方的Y预测模型皿:,只有微众拥有Y=逾期表现/合作企业无;去暴露含有隐私的X传统建模方法问题:,告管色猿丫无去啦则,X数据全量传输到微众不可行期望结果:,保护的私条件下,建立联合模型/联合模型效果超过单边数壁模HeBankIxiX2X3。送93Ul98000AU245000CU323500CU410100AUSS75BU6575AU7880B合作企业业务系统A数据微众银行I
7、DX4*ntranX5CtAIYUl6600无U2550500桁U3520500有4600600无U86600无U9520500布UlO600600无业务系统B世举个例子:微众与合作企业进行联合建模,比如做信贷逾期模型,微众有Y数据,包括标签数据,逾期记录,用这样的数据可能会建一个很好的模型,但我们希望用更多的数据,比如合作方的标签数据和画像数据来更大的提升风控模型的效果和稳定性。传统模式的问题是:合作企业缺乏Y无法独立建立模型,需要微众把Y数据,带入到合作方的生产环境建模,但是由于国家的数据保护条款和各企业自身对数据的严格规定,得到的X数据不能全量的传输到微众。针对这个问题,通过纵向联邦学习
8、来解决。如右图,两边的数据都有共同的ID,特征是完全不一样的,可以通过一方特征来弥补另一方特征的不足。2 .同态加密技术保护隐私模型参数分别独立IeWSub-ModelA只包公Xl.X2.XHMtSub-ModelB只包X4,XSlHBl同态加密技术保护隐私数据隐私保护:/整二向对方蟠/任何底层X,Y数据不向对方泄露雌然册:,分别持有,联合使用结果:/AT5ulfu2,u3)=r严H(Ui)IUieXAMrand匕-(rl*H(ul),r2*H(u2),r3*H(u3),r4,H(u4)DatH(ri(H(uf)dri)=H(H(ui)d)Z,Zb11*(H(uO)dZa)I=D4ZI=H(H
9、(ul)ul,u2,u3HeBank这里是通过RSA和Hash的机制做到的,B方会作为公钥的生成方,会把公钥给到A方,A方基于Hash引用一个随机数,再交互传给B方,B方同时做Hash然后传给A方,A方会最后做一个结果的交集。整个过程中,你可以看到没有任何一个明文数据传递过来,即使采用暴力或者碰撞的方式,依然解析不出原始的ido通过这套机制,我们很好的保护了双方的差集部分。4 .同态加密,全同态或者半同态FullHomomorphicEncryptionandPartialHomomorphicEncryption,数据层面的信息保护Data-Ievelinformationprotectio
10、nPaillier半同态加密Partiallyho11onorphicencryptionAddition:u+v=u+vScalarmultiplication:nu=nullRivest,R.1.:Adlemanl1.;andDertouzos,M.1.1978.Ondatabanksandprivacyhomomorphisms.FoundationsofSecureComputation,AcademiaPress,169-179.HeBank分享了匹配过程中隐私保护的问题,接下来分享一个通用的技术,同态加密。刚才提到建模过程中,引用了同态加密技术,比如对两个数字进行加密,加密后两个数
11、字的密文可以进行数学运算,比如加法,其结果依然是密文,对密文解密后得到的结果和它们明文的加法结果是一样的。问题:在保护双方除私下,A侧(含X)和B侧(含X,Y)特征如何计算WOE和IV?,A侧只有特征X,没有y;计算Woe和IV得同时依赖x,y(B侧特征WOe&IV可以本地计算)A侧J不能对B侧叫ix,B侧印能对A便曝露V最终只能让B侧联得所有特征Woe&IVHeBank通过这样的同态加密技术,我们把它应用到机器学习,包括特征工程中。接下来会重点介绍,联邦机制下特征工程和机器学习建模的一些细节。我们知道特征工程是机器学习建模中非常重要的一环,在联邦机制下,如何完成联邦特征工程?尤其A方只有X没
12、有Y,如果想做一个WOE或者IV值的计算是非常困难的。那么如何在联邦学习的机制下,A方利用B方有Y的数据计算WOE和IV值,且在这个过程中B方没有泄漏任何数据?,联邦特征工程Woe&IV方案1.ldi,Encry(yl),Encry(l-yi)2.Encode(id_setJ),Sum(EncryM),sum(Encry(l*yl)Encry(x):X的加法同态加密,Encode(x):本码B方本地计算1. distposj=npos_l/pos_total;distneg_i=nneg_i/neg_total2. Woe_i=100log(distposj/distnegj)3. IV=(d
13、isposj-disnegj)o(disposjdisnegj)WeBank首先,B方对y以及1-y进行同态加密,然后给到A方,A方会对自己的特征进行分箱处理,进而A方在分箱中进行密文求和的操作,再把结果给到B方进行解密,然后算出A方每个特征分箱的WOE值和IV值。在这个过程中,没有明文数据传输,A方不知道B方的y值,同时B方也不知道A方每个特征的值是什么,从而在安全隐私保护的情况下,完成了特征工程的计算。同态加密在机器学习上应用多项式近似Polynonialapproxinationforlogarithmfunction/(u)=log(l+exp(-,Hrx)log2-ywrx+-(*7
14、x)2“W).(:7J-T-Dyx1 +exp(-Wx),11I*(yH-1)yx加密计算Encryptedcoputationforeachterinthepolynomialfunctionw=Iog2(MJXy(M=Uog2(-I)*.r6x)2Zo,Kim1M.;Song,Y.;Wang,S.;Xia,Y.:andJiang,X.2018.Securelogisticregressionbasedonhomomorphicencryption:Designandevaluation.JMIRMedInform6(2)HeBankY.Aono,T.HayashilT.P.1.e,1.Wa
15、ng,Scalableandsecurelogisticregressionviaishomonorphicencryption.CODASPY16说完特征工程,再讲下最核心的机器学习,比如常见的逻辑回归,这是经典的lossfunction和梯度,刚才说的同态加密的特性,目前用到的是半同态的技术。所以,需要对lossfunction和梯度进行多项式展开,来满足加法操作。这样就可以把同态加密的技术应用在lossfunction和梯度中。5.SecureBoostSecureBoost Collaborativelylearnasharedgradient-treebstingnodel 1.os
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2024 新一代 联邦 学习 技术 应用 实战
![提示](https://www.desk33.com/images/bang_tan.gif)
链接地址:https://www.desk33.com/p-1341110.html