2024机器学习在反欺诈中应用.docx
机器学习在反欺诈中应用当前机器学习在金融行业已经运用非常广泛,尤其在金融业的信贷领域。在实践中,欺诈与信贷业务强!联,所以,反欺!镀成机器学习在信贷领域的一大应用。反欺诈TS会用至I版器学习、深度学习以及图谱关系z其中,机器学习与深蜉习多是针对个人欺诈风险,而图蹴系则多用谕嫩泪碱溺】因此,本次分享钏聊网绑特点以及摘学深鲜习和图谱在一、关于反欺诈(一)欺诈风险简介在信贷领域有两类风险,一类是信用风险,一类是欺诈风险。信用风险主要是对借款人还款能力和意愿进行评估,而反欺诈则是对借款人的目的是否正当进行判断。借款人出现信用风险,金融机构可通过风险定价和自有备付金进行防范,风险可控性较尢而当借款人在借款时便以骗贷赚钱为目的,目金融佛未能及时识S峨诈,则会出现未能通过假礴刷息,反而被骗走本金的阖兄,尤其无法识团伙欺i锄,会在短时间内遭受非常严重的后果,会蝴构面h颜蟠问控由嘴小,所Ii擞诈风鲤融m构零容忍的。(二)反欺诈生命周期简介信贷反欺诈要从防御开始做起,所以应从用户申请到放款整个生命周期的各个阶段特点进行分析,针对各个阶段采取具有针对性的反欺诈措施。其生命周期可参见下图:Da反欺诈的几个方面设备与网络层代理检测IDC检测模拟器/虚拟机检痔木马检测用户行为层注册行为登陆行为交易行为事件序列时间间隔异常业务频次层注册频次出陆颜1次交易频次地域频次时间间隰频次业务事件异常层注册异常度黄陆异觉度交易异常度地域异常度时间段异常度欺诈团伙图谱羊毛党发现代理池发现羊毛党设备发现肉鸡网络发现跨应用欧诈团伙如上图,设备与网络防御是反欺诈的第毋,可通过设备和网络层面的检测,防止用户利用设备对金融机构进行欺诈;在第一层进行防御了部分欺诈用户后,再从用户行为层、业务频次层及业务事件解层翊麻够询诈行为;理却前醒绢箱aa期络旗伙欺泪a行I二、机器学习应用(一)反欺诈规则的缺点反欺诈一般通过两种方式,一种是设定规则,另一种是通过算法。规则在反欺诈实践中应用也较多,但是缺点也明显,主要表现为:1 .策略性较强,命中直接拒绝,而且黑名单本身的误伤性也较强;2 .无法给出用户的欺诈风险有多大;3 .未考虑用户从信用风险向欺诈风险的转移,尤其是在行业不景气时。以上缺点机器学习可以进行有效的避免,如可计算用户的欺诈概率有多大,从而采取一定的措施争取客户,而不是高辨绝,同时也可以通过模型计算用户从信用风险转移为欺诈风险的瞬,从而金融机构可及时进行碉解闾隹备。(二)机器学习有监督模型评分卡一般运用在信用风险评估,如:A卡(申请评分卡)和B卡(行为评分卡)等,反欺诈也会运用有监督学习,如评分卡(F卡),具体如下:一般有监督机畔习问题:假i三t三据XM2.xn,i本S匕Y=yl,y2.n)损失函数(IoSSfunction)I(F(X),Y)目标,寻找一个FFa=argminFl(Y,F(x)D做模型的过程中,特征很重要,特征决定模型檄果。反欺诈模型需要从欺诈的角度来做特征,要注意与信用特征区分开,以免与A卡和B卡的耦合度过高。模型算出的多是概率,一般会将用模型算出的概率映射到分数,具体如下图:评分卡分数的计算评分卡触的最终产出是分数,目与违约概辜负相关Score=BasePoint+(-y)1.n(2)P其中,yHogit(p)=log(;)I-PBasePbint:基准分,无实际戢义PDOPoint-toDoubleOdds,好坏比每升高Tg,分散升高PDO个单位(三)部分常规机器学习在反欺诈中应用在反欺诈中用到的机器学习主要有下图几种。其中,iforest通常用来做数据离群点的异常检测,在应用方面,金融公司可根据自身的规则和算法,将检测出的离群点在评分卡入模的数据方面,进行加权或算法调整。svm通常也用来做异常检测;arima则用来作时间序列预测分析;根据现在信贷数据坏样本较少的特点,knn和kmean可以用来做聚类;随机森林则是在做异常检测时进行分类,以Jz机器学习可通过博客进行更多了解,此处不进行深入讲解。三、深度学习应用此部分对人工神经网络(ANN)和时间序列进行简单介绍。神经网络通常需要大量彼此连接的神经元,每个神经元通过特定的输出函数,计算处理来自其他响铃神经元的力哝输入直神经元质检的信息传递强度,通过1三值½义,算法会不断自我学习,调黝啾值。神经网络算法的核心溟:计算、连接、评估、纠错和感剖II。时间序列部分介绍RNN(循环神经网络)和1.STM(长短记忆循环神经网络)两种算法。1.STM是RNN的优化版,在特征较多时,RNN计算量会呈指数式增长,其计算复杂度也IFtIOj0,卜“Z4AVOaX时间序列预测分析就是利用过去一段时间内某事件时间的特征来侦测未来一段时间内该事件的特征X为输入层,。为输出层,S为隐含层,而t指第几次的计算;v,w,u为权彘,其中计算第t次的隐含层状态时为St=f(*×t÷WaSM)特点:依赖事件先后发生的顺序或陷:计算量会呈指数式增长,计管复杂度增加St=f(U*Xt+Wl*St-lW2*St-2÷.+Wn*St-n)1.STM则是在RNN的结构以外加入遗忘阀门(forgetgate)、输入阀门(inputgate)和输出阀门(forgetgate),其通过这些阀门节点实现记忆功能,改善了RNN在计算过程中会出现的问题,如下图:ST0*<*,)当阈门打开的时候,前面横型的训练结果就会关联到当前的横型计算,而当阀门关闭的时候之前的计管结果就不再影响当前的计算.因此,通过附涮弥开我们就可以实婢期序列对最终结果的影响.而当你不不希望之前结果对之后产生影响,比如自然语言处理中的开始分析新段落或新,节,月及把阀门关掉即可.时间序列在信贷中有两个比较重要应用场景,一是B卡(行为评分卡),一是异常检测。我们着重介绍1.STM在这两个场景中的应用。在行为评分卡的应用中,当用户在金融机构进行多次借款时,可以将其以往的借款行为通过统计方法或其他相关方法生成embedding进行1.STM计算。异常检测的应用可参考下图:直一些行为匕如睢款伤仪.等度点阮8!用1.STM时间序列数据做异常检测H次光国比如上次借姓和这次信线的点的变化情况I博身蝴填写风控必须康骑愉科!另外在使用1.STM时需注意4点:1 .应限制每一个时间序列embedding的长度;2 .对缺失数据做补O操作;3 .针对离散变量的embedding尽量不要做onehot处理;4 .样本量少时,应通过仿真模型进行异常检测评估,仿真模型能够有效解决信用风险转欺诈风险的导致模型失效的问题。四、图谱相关应用图谱主要用来防止团伙欺诈,也可以根据用户的周边关系判断用户的好坏瞬。此次介绍三种图谱关系在反欺诈中的应用。图谱关系在反欺诈中应用某家银行信贷客户透视图常秘计,杜肝分割,雪连通算法通过片子用户传播,MMrankJJ法关系。mMddnfl做骏,分我其中,常规统计TS不会直接用规则,而是将规贝喊成特征,再带入模型进行统计。比如一度联系人中有多少黑中介,一度联系人中的逾期人数有多少,Itt却征的KS较高且有效。常规统计一般会用到社群分割和强连通算法。而种子传播层面则需要用到trustrank,关系embedding则可以通过衍生变量将关系向量化,将向量化的关系带入模型进行进一步的分析不啜计。(一)常规统计因为资源限制娜高投资回报率的原因,黑产一般会最大程度的利用已有资源,比如,重复的使用现有设备和信息进行多次贷款申请,这样就会出现同一手机号码、登录IP或硬件设备出现在多个申请信息中,形成关联网络。常规统计的运用,是通过将娄据进行关联,形成关系网络图,然后使用社会关系网络分析工具,分析关系网络图中是否有大量共用设备等拓扑结构。(二)复杂网络embedding算法有时候机器无法识别信息,需要将信息向量化(embedding),将信息向量化后才可以做后续的算法操作。embedding的方法有很多,此次仅介绍node2vec一种。node2vec的原理前端为随机游走(randomwalk),后端为word2vecorandomwalk贝!J采样,将概率最大的关系采样出来并生成类似文本的序列数据,这类序列数据相当于词的共现性,对词的共线性可以做Word2vec,这靴JWord2vec与N1.P的WOrd2vec差昂Embedding后会生成50维到128维的向量,之后进行聚类和分类的操作,具体如下:复杂网络embedding算法word2vec其实是根据词的共现关系,算词和词之间的概率,将词映射到低纬度向量,并语料中的信息。DeepWaIk算法其实和word2vec算法很类似,应该是借鉴word2vec算法U巴或者是照搬WOrd2vec®法,对图从一个节点开始用randomWalk来生成类似文本的序列数据,然后将id做为一个个词,始用SkiPgram训练得到向量,node2vecnode2vc在deepwalk算法的基出上,定义了一个biasrandomwalk的策略生成序列,算是改进了一下算法,后面还是走的SkiPgram去训练()trustrank算法Trustrank是pagerank的升级版z当前我司用的trustrank并不是传统的trustrankz而是改变其中的某些算法。trustrank是传播关系的一种算法,根据人与人的关系进行判断和识SI1.比如阂和小明是情侣关系,当的时,小明的壁增大,根据类似每联系用来注变量。Trustrank的使用需要建立起图谱关系,数据量4W寸,spark的Sparkgragh对trustrank的图谱关系支撑较好。世界万物是错综负责的关系网,无论形式多么复杂,本质都是简时空甥s、地址数据、人物数据构人-人关联,人-物关联,"六度理论"单的三元组,即:实体-关系-实体成庞大的关系网络、即复杂网络JTrustrank涉及种子用户(含白种子和黑种子)的定义,当前的大多使用中只有一种传播方法,也就是白种子只传播白用户,黑用户只传播黑用户。但是其实可以进行变量的衍和算法的改进,散口T用户既跟黑中介有联系,又跟高净值用户有联系。以下图为例,trustrank为种子用户(下图的1和2)定义一个初始值,每次传播后会改变矩阵的值,最后收敛得到trustrank的分。通过不停的迭代,直至I牌收敛.r=aTr+(l-a)d衰减因子,TS取值0.80或0.85,关系矩阵Id为种子以上图谱关系可以进行改进和升级,如在解的过程中可以加入通讯录关系,号码通,老乡、目前所在地兴趣、职业等,形成以用户画像解的好坏用户,在不同的用户画像传播中做不同的权重喙