欢迎来到课桌文档! | 帮助中心 课桌文档-建筑工程资料库
课桌文档
全部分类
  • 党建之窗>
  • 感悟体会>
  • 百家争鸣>
  • 教育整顿>
  • 文笔提升>
  • 热门分类>
  • 计划总结>
  • 致辞演讲>
  • 在线阅读>
  • ImageVerifierCode 换一换
    首页 课桌文档 > 资源分类 > DOCX文档下载  

    AI时代的数据处理技术-23页.docx

    • 资源ID:1677363       资源大小:232.33KB        全文页数:20页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    AI时代的数据处理技术-23页.docx

    !据处理的深度也在增加THEDATASCIENCEHIERARCHYOFNEEDSIEARN/OPIIM1.ZEAGGREGATE/1.ABE1.EXP1.oRE/TRANSFORMMOVSTORECO1.1.ECTW:Eed1.m.SnvhxKuoW*1.f1.I1.fccOOT大模型崛起引领大数据新需求*OCEANeASg大模型崛起引领大数据新趋势*OCEANeASg趋势一:在线离线一体化问题在线横型(第88)薇Q与高线不一致.数据不T2-in-1.Architecture:TP&AP化机分布式一体化架构HIFW1IS生多租户架构Otad.MW三受8MySQ1.和OrX:1。*ySQ1.三W三与妥和户度莱容.实加赚得离*OCEANeASgOceanBase:分布式HTAP数据库;分析和决策对于企业来说非常重要:OCeanBaSe采用分布式架构,具有优异的TP性能,同时支持分析和批处理(AP)实时:混合负我TuGraphDB:分柘5站更用,支持口用施阴由谓透含ISOGQ1.TuGraphDataf1.ow:灌阴计督系维,支持国际标矗*0询语自ISOGQt以在线数据库内容为准,同步到近线系统图风控方案中的在线离线一体化:解决方案避免不同语言语义的不一致性很多细节/匕如Node1.imit趋势二:向量数据库与关系数据库一体化一体化的优,点应用场景搭珞向I1.ISI据处如B力和关系型跤据曾建健力结合在TB的技术策咯蚂蚁VSAGV5AG是面向蝇蚊的通用向索引库,包含目萌主流的向量素弓I实现/针对场景的优化搔供通用向琳哈木和梅乂接口(与Fa1.SS形式类保)Add/Bui1.d埠BZftUI构It向B素引KnnScarch/RaFSeHCh:向检索(诋回行号和距两)SmHac/Deseria1.ize:两三索引序列化/反序列化,HHMWiSWtfJHNSW 生产可用的DiSkANN 支持INT8类型向压索(非SQ/PQ) PQ(进行中) 自造向X今加速(S【MD指令集加速) 索引分区 TOPI/T。PK召囹优化 向何距离计算优化VSAG与Faiss的区别VSAG提供!住实现的HNSW 提供生产可用的DiSkANN 支持INT8理向检本(非SQPQ) 拇供x86.ARN1.平台里Ii麻JSIMD运行 大量IOW1.eVd的算法,可自由怛合(WF.PQ、SQ、RefIM) 提供最佳实酬GPU支持 拇供Bmry匈牍弓M法 WF去对于批量检索有很大加说窃1康使用,无需I法专业知识,不需要法选史,C1.Ja通过简单接入,可以快谏我骞向量松利8力,楣有内存和城盘两个场景下吸致解次方案的索引附向检察工具箱,可以深度定制句检求法,对于特定的ismodHJ以石更好的怪虎,IW用户对于检索法冷数非潴了解,石最好的GPU算法实观.面对高写入/BQPS场景有巨大优势在OceanBase中集成VSAGOcwnBasc提供模引入VSAGOcednBaseProxyVectorSMrChRequeMOceanBase新增南二级索弓I与CkaCBse吟本地二级索引刈OccanBascNodeErteniionSOccanBascNodeE>ten0n5检索过程与分析型索引奥像HMVrROcen-万点i!H1.康对所”MW网行合并VSAG1.ibVSAGbErtenwonsOceanBaseNodeVSAG1.ib趋势三:数据处理与AI计算一体化视型训幅数据处理一Data+AI典甄景CommonCraw1.是一个海的,非t狗化的、多语言的网页数据集,包含近10年的随机网珞数相,PB嫁规例,可从AmaZonS3上免残获取.GPT+3训谦数柩的60%来自CommonCraWtCCNet是Facebook发布板轴月洗流程,希望从CommonCrawi中能终提取出高成的文本S3三鬃CCNet献xafiWNjW«»7tmfT<<H1.CTtM1.于“mmcatwc妙SV如XSWame数据处理与AI融合问题大吟:叫I小故据处理I处理器GPuaAin11SCPUCPU同珞NVUnk1.100Gbps-fIOGbps-25Gbps*主要16程语言Python>va/Sca1.aPythonPyTorchJensorfIow.PaddicPdddkSQ1.SparkDataFramePandas.NumpySciPyzNotcpdd*OCEANeASg数据与AI独立生态的问题1.两类软硬件生态的开发、调试、部署彳雌护都更加复杂2.系统间数据传输开销降低性能3.需要招聘两类程序员,或精通两者的程序员一种尝试:BigD1.aod1.-9qMft>a)<>.4d<1.teasra1.>.S1.10.AtM<UrMr(.>.a<M(U>93ortMfta()I1.1.,-,|Ab:»;,».H-tf.<<b1.,12Cffitc1.u>C1.40*1.1.1.Cfittion<>13OPtnkIX4"1.nU,te1.-ya'.of,深度学习的JaVa化问题vprk-8ptK,b<x1.<4riMe<twf1.tv1.a1.1.1.r*.Iiop1.rSd-a<4rk.txtrs1.<*dftrA1.nr4d-x:r4d-txt_Mkdvb1.(K)fi1.1."4<4<*x*to3to_*4vy*1.'><*>>.m*aatY4y>tto.Mav1.t4ffyv>)只支持CPU,不支持GPU和异构加速器王新开发深度学习模块,不能复用TF中的功能SPark本身性能有缺陷r*Mc<i<t<>1.tf*1.n*d*M>1.p91.1.c<1.<*9tKedID»,J.J.,Wang.Y.Qiu.X.Ding,DvZhang.Y,Wang,丫&Wang,J.(2019.Nmber).Bigd1.:AdistributeddeepIwrringframevfkfortxgdataSoCC2019*OCEANeASg另一种尝试:Spark的Python化 PySpark支持Dataframe和SQ1. Koa1.asSPandas的Spark封装,现在已经被合并迸入Spark3.2 PySpark在Sparic用户中的使用已经接近一半 PythOn由于无静态类型,编译优化方面有瞄度,在常见查询中与JaVa性能有约50%的落后融合数据处理和AI生态的愿景械力无PythonUDF的1.ogica1.Pkn遇雨泉由ChutonuSQ1.Wi”*期)副4类n耀作.优化班W5,以支持1啖第AI将成为主要计算形式数据处理生态应该围绕A课建设加速器支持与弹性任务调度一次编写,到处执行CodeGerwrHtotfoeChukonuC*20APIJ.20AHNM皿RDOExecutionEngineforGefWfVMROPPndM1.开源诂事透待开发2*uY*UQj>oXuSIwh11Gk<11j*mYmqGJOS-q*r,3恢3cFdnrIKc<Q.H*UuWJnBpWfJ4r½40Oow&nePXIIcAHtc*d2wedr<h,QrShir*Scvf)0f>9O*tw*W3c*>11gMN11eJDWibuiedCbMPV1.DK1.&Ui337纥2K3

    注意事项

    本文(AI时代的数据处理技术-23页.docx)为本站会员(夺命阿水)主动上传,课桌文档仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知课桌文档(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-1

    经营许可证:宁B2-20210002

    宁公网安备 64010402000986号

    课桌文档
    收起
    展开