AI时代的数据处理技术-23页.docx
!据处理的深度也在增加THEDATASCIENCEHIERARCHYOFNEEDSIEARN/OPIIM1.ZEAGGREGATE/1.ABE1.EXP1.oRE/TRANSFORMMOVSTORECO1.1.ECTW:Eed1.m.SnvhxKuoW*1.f1.I1.fccOOT大模型崛起引领大数据新需求*OCEANeASg大模型崛起引领大数据新趋势*OCEANeASg趋势一:在线离线一体化问题在线横型(第88)薇Q与高线不一致.数据不T2-in-1.Architecture:TP&AP化机分布式一体化架构HIFW1IS生多租户架构Otad.MW三受8MySQ1.和OrX:1。*ySQ1.三W三与妥和户度莱容.实加赚得离*OCEANeASgOceanBase:分布式HTAP数据库;分析和决策对于企业来说非常重要:OCeanBaSe采用分布式架构,具有优异的TP性能,同时支持分析和批处理(AP)实时:混合负我TuGraphDB:分柘5站更用,支持口用施阴由谓透含ISOGQ1.TuGraphDataf1.ow:灌阴计督系维,支持国际标矗*0询语自ISOGQt以在线数据库内容为准,同步到近线系统图风控方案中的在线离线一体化:解决方案避免不同语言语义的不一致性很多细节/匕如Node1.imit趋势二:向量数据库与关系数据库一体化一体化的优,点应用场景搭珞向I1.ISI据处如B力和关系型跤据曾建健力结合在TB的技术策咯蚂蚁VSAGV5AG是面向蝇蚊的通用向索引库,包含目萌主流的向量素弓I实现/针对场景的优化搔供通用向琳哈木和梅乂接口(与Fa1.SS形式类保)Add/Bui1.d埠BZftUI构It向B素引KnnScarch/RaFSeHCh:向检索(诋回行号和距两)SmHac/Deseria1.ize:两三索引序列化/反序列化,HHMWiSWtfJHNSW 生产可用的DiSkANN 支持INT8类型向压索(非SQ/PQ) PQ(进行中) 自造向X今加速(S【MD指令集加速) 索引分区 TOPI/T。PK召囹优化 向何距离计算优化VSAG与Faiss的区别VSAG提供!住实现的HNSW 提供生产可用的DiSkANN 支持INT8理向检本(非SQPQ) 拇供x86.ARN1.平台里Ii麻JSIMD运行 大量IOW1.eVd的算法,可自由怛合(WF.PQ、SQ、RefIM) 提供最佳实酬GPU支持 拇供Bmry匈牍弓M法 WF去对于批量检索有很大加说窃1康使用,无需I法专业知识,不需要法选史,C1.Ja通过简单接入,可以快谏我骞向量松利8力,楣有内存和城盘两个场景下吸致解次方案的索引附向检察工具箱,可以深度定制句检求法,对于特定的ismodHJ以石更好的怪虎,IW用户对于检索法冷数非潴了解,石最好的GPU算法实观.面对高写入/BQPS场景有巨大优势在OceanBase中集成VSAGOcwnBasc提供模引入VSAGOcednBaseProxyVectorSMrChRequeMOceanBase新增南二级索弓I与CkaCBse吟本地二级索引刈OccanBascNodeErteniionSOccanBascNodeE>ten0n5检索过程与分析型索引奥像HMVrROcen-万点i!H1.康对所”MW网行合并VSAG1.ibVSAGbErtenwonsOceanBaseNodeVSAG1.ib趋势三:数据处理与AI计算一体化视型训幅数据处理一Data+AI典甄景CommonCraw1.是一个海的,非t狗化的、多语言的网页数据集,包含近10年的随机网珞数相,PB嫁规例,可从AmaZonS3上免残获取.GPT+3训谦数柩的60%来自CommonCraWtCCNet是Facebook发布板轴月洗流程,希望从CommonCrawi中能终提取出高成的文本S3三鬃CCNet献xafiWNjW«»7tmfT<<H1.CTtM1.于“mmcatwc妙SV如XSWame数据处理与AI融合问题大吟:叫I小故据处理I处理器GPuaAin11SCPUCPU同珞NVUnk1.100Gbps-fIOGbps-25Gbps*主要16程语言Python>va/Sca1.aPythonPyTorchJensorfIow.PaddicPdddkSQ1.SparkDataFramePandas.NumpySciPyzNotcpdd*OCEANeASg数据与AI独立生态的问题1.两类软硬件生态的开发、调试、部署彳雌护都更加复杂2.系统间数据传输开销降低性能3.需要招聘两类程序员,或精通两者的程序员一种尝试:BigD1.aod1.-9qMft>a)<>.4d<1.teasra1.>.S1.10.AtM<UrMr(.>.a<M(U>93ortMfta()I1.1.,-,|Ab:»;,».H-tf.<<b1.,12Cffitc1.u>C1.40*1.1.1.Cfittion<>13OPtnkIX4"1.nU,te1.-ya'.of,深度学习的JaVa化问题vprk-8ptK,b<x1.<4riMe<twf1.tv1.a1.1.1.r*.Iiop1.rSd-a<4rk.txtrs1.<*dftrA1.nr4d-x:r4d-txt_Mkdvb1.(K)fi1.1."4<4<*x*to3to_*4vy*1.'><*>>.m*aatY4y>tto.Mav1.t4ffyv>)只支持CPU,不支持GPU和异构加速器王新开发深度学习模块,不能复用TF中的功能SPark本身性能有缺陷r*Mc<i<t<>1.tf*1.n*d*M>1.p91.1.c<1.<*9tKedID»,J.J.,Wang.Y.Qiu.X.Ding,DvZhang.Y,Wang,丫&Wang,J.(2019.Nmber).Bigd1.:AdistributeddeepIwrringframevfkfortxgdataSoCC2019*OCEANeASg另一种尝试:Spark的Python化 PySpark支持Dataframe和SQ1. Koa1.asSPandas的Spark封装,现在已经被合并迸入Spark3.2 PySpark在Sparic用户中的使用已经接近一半 PythOn由于无静态类型,编译优化方面有瞄度,在常见查询中与JaVa性能有约50%的落后融合数据处理和AI生态的愿景械力无PythonUDF的1.ogica1.Pkn遇雨泉由ChutonuSQ1.Wi”*期)副4类n耀作.优化班W5,以支持1啖第AI将成为主要计算形式数据处理生态应该围绕A课建设加速器支持与弹性任务调度一次编写,到处执行CodeGerwrHtotfoeChukonuC*20APIJ.20AHNM皿RDOExecutionEngineforGefWfVMROPPndM1.开源诂事透待开发2*uY*UQj>oXuSIwh11Gk<11j*mYmqGJOS-q*r,3恢3cFdnrIKc<Q.H*UuWJnBpWfJ4r½40Oow&nePXIIcAHtc*d2wedr<h,QrShir*Scvf)0f>9O*tw*W3c*>11gMN11eJDWibuiedCbMPV1.DK1.&Ui337纥2K3