2023阿里云AIGC与应用部署.docx
《2023阿里云AIGC与应用部署.docx》由会员分享,可在线阅读,更多相关《2023阿里云AIGC与应用部署.docx(96页珍藏版)》请在课桌文档上搜索。
1、2023阿里云AIGC与应用部署卷首语我们身处在智能时代的21世纪,日常生活中无处不见Al的应用,人工智能与传媒业的融合发展也成为内容生产行业的发展趋势。AIGC作为当前新型的内容生产方式,被广泛应用于传媒、电商、影视等行业,帮助提高内容的生产效率和多样性。本书收纳来自张亦驰(怀潜)、丁小虎(脑斧)两位阿里资深工程师和阿里云AnalyticDB.函数计算FC、阿里云大数据Al技术三个技术团队的五篇优秀技术文章,内容涵盖基于大模型的AIGC应用及技术要点和AIGC实际应用案例。通过本书,不仅可以深度体验AIGC在实际应用场景的具体落地能力,手把手教学云产品部署,开启云上实践。还可以了解在大模型的
2、加持下AIGC的多种可能性,帮助内容生产跨越新时代。如果你刚接触AIGC,那么本书为你详细介绍AIGC大模型的意义。如果你己经对AIGC有一定的了解,本书将为你展示大模型云上实践,例如HologreS+大模型、向量数据库+LLM(大语言模型)等。更有模型在线服务PAI-EAS,函数计算FC云产品免费试用,一起来玩转AlGC吧!目录页Hologres+大模型初探!让ChatGPT回W家问题5AnalyticDB(ADB)+LLM:构建AlGC时代下企业专属Chatbot25人类生产力的解放?揭晓从大模型到AIGC的新魔法37玩转AIGC,5分钟函数计算FC部署StableDiffustion服务
3、67赚AIGC,5分钟使用PAI键部署StableDiffusionAl绘画应用84HOIOgres+大模型初探!让ChatGPT回答商家问题阿里巴巴商家服务团队旨在为商家提供智能化的解决方案,致力于帮助商家自助解决问题。主要的产品包括:商家服务大厅:主要通过搜索的方式为商家提供服务,包含了工具、短视频、知识、服务专区等特色内容。同时商家服务大厅以多种形态通过不同渠道为商家提供千人千面的服务。PC版服务大厅:功能最全的PC主站服务大厅,为商家提供多元化的智能解决方案。首页 知识It*JhF商家服务大厅TeOMOXMI全*知识工h*XU延迟发货Ie督OiaiBXflIBflKfteeiH:如何发
4、IC风迟发二备SLifiXVIfie(WtMVR3tKKFlXffifiS)融制似程点此-.(“)介IflIe径m力IlJ(Q家因窿1灾“不可BI力用室.无渣IW候置IfiIlNfHfi户生HK4RIft的尸品.二.无需摺番的al巳尸生变eo将产生制订在平台免费区域内.无需抢番.在免费公告IK定的晚教费的税内取赞磔可./1免费区域公告怠It置.3.巴与酒曼者一X迷,卡送/6发整投诉宣词IiatttfiltXIMBit遑青:K赏时间承德/束核均定时间发货介ie一.NLBI定义焉宝月IHA夏货H同为4J*L备家淳,发货时用交饼格.iii2方式*-值的.知尚妻Ir支付僚商品实际理交为5%30%佟为淳
5、的金.愕品1外,U体Im1投傅n奥m(HiXK蜜昊家竹UHBA实IiiJK文窗T)5、,且F*不i!30元,也不少于5元.*货:货同买事用0品宴1成交RTISg自二.*=.xsannsiR9*tt11*.*qUMHD.MftAd.HI*lttl.思司以,以下方式HUtJKI-.入口ISAftI(我用】ft蓟野庙的司得正饿.点疝右方MlK培家W.修万式1启击卅曾记火石方Yl国结束W(若当前时间星于Ie备免H开始时间,MSfliifrittSWTtS*?;Q方发男?8者,凭Ii示例钉钉商家服务大厅:通过钉钉的方式,为商家提供更加方便、灵活易用的自助服务!千牛服务大厅:在商家千牛工作台上为商家随时随
6、地提供客服服务场景版服务大厅:通过悬浮小球的方式内嵌在商家常用的页面,例如申诉中心,服务触手可达申诉中心*万象:智能问答机器人,以问答的模式帮助商家解决问题。如果商家仍未能解决,可以进一步联系人工,通过在、热线的方式联系客服小二帮助解决问题。亲,我在.阿里万象正在为您期务,急可以输入问题向我提问38雷你想问我想要开淘宝店,怎么做?如何报名品Bl新享(首单礼金)活动?一个莒业执照/一个身份证可以开几个河宝店橘?如何开通信用卡服务?如何加入全球购资质?你是*Hi-我是仔一是阿里为aatm打ia的*能助理,立志帮您嫌大aw?-用叮找暮服.快人一步(小二谓回答)涨知识海宝新疫情豁免R保K政策总体来说,
7、阿里巴巴商家服务团队的主要工作就是围绕智能”和“服务这两个关键词展开,为各个商家提供更加自助的解决问题能力,以此提高对商家的自助服务能力,同时也降低平台服务商家的客服人工成本。在智能服务方面我们团队做了比较多的前沿探索,目前势不可挡的大模型凭借出色的自然语言理解能力,似乎在智能服务这方面大有可为,便萌生了让大模型帮助商家解决问题的想法。我们团队利用ChatGPT在智能答疑机器人场景做了初步的探索,下面是一些实践分享,希望通过这些分享为大家在商家服务、智能客服等场景提供更多的经验和思路。一、基于Fine-tuning的初次探索那么如何让大模型能够回答商家的问题?第一想法就是基于Fine-tuni
8、ng,通过训练微调的方式提升模型垂直领域的能力,让其掌握一些商家服务领域的知识,以具备回答商家问题的能力。1.准备数据在知识库中筛选了一些知识并将它们的内容格式化后,整理成如下格式(jsonline):prompt:淘宝商家服务大厅,completion:2021年10月商家服务大厅升级,新增活动大促专题XXXXXprompt:单品宝是什么,completion:单品宝是原限时打折的升级工具,可支持XXXXnprompt:宝贝详情页可以添加多少个视频,completion:在发布宝贝页一个宝贝在详情页中只能添加一个视频XXXXprompt:店铺经营主体变更需要先还清淘宝贷款吗,completi
9、on:需耍还清贷款,因为店铺XXXprompt:天猫活动商品价格力严重溢价是什么意思,completion:溢价是指预计普惠成交价高于最低成交价严重溢价的意思是指XXXXprompt:买家退货单号虚假、没有物流信息怎么办,,completion:1.建议您先联系买家,确认下是否存在填错运单号等情况。2.若无法联系上买家,您可xxxxprompt:淘管家,completion:淘管家是1688专业的分销订货平台,在淘管家XXXXnprompt:手淘中猜你喜欢频道如何加入,completion:手淘首页展示的猜你喜欢频道目前无法主动入驻是XXXXXprompt:买家删除了中评/差评,店铺评分(DS
10、R)也会删除吗,completion:若买家自行删除中差评或修改中差评为好评xxxxprompt:淘宝开店收费吗,completion:淘宝开店都是免费,但为xxxx在上述数据中,PromPt字段为商家问题,completion为答案。用这些数据训练后,发现这种简单的一问一答的数据训练效果并不理想,向模型提问时,需要使问题和训练时的prompt保持高度相似时,模型才能够勉强给出较为正确的答案。既然我们需要通过训练的方式提升模型垂直领域的能力,那么这些知识是否集中于某个领域,或者说大模型是否知道它们是否集中于某个领域呢?于是将原来的prompt按照如下方式进行了改写:Prompt:你是淘宝商家智
11、能客服,你聪明、友善,能够帮助商家解决问题。Customer:你是谁?AI:您好,我是淘宝商家智能客服,请问有什么可以帮助你吗?Customer:问题Completion:AI:答案明确A在回答问题时的身份为淘宝商家智能客服”,在【可答问题时需要保持友善的态度,并且明确其目标为帮助商家解决问题;额外给出一个问答样例(One-ShOt)。按照这样的方式,最终的训练数据如下:prompt:你是淘宝商家智能客服,你聪明、友善,能够帮助商家解决问题。XnXnCustomer:你是谁?nAI:您好,我是淘宝商家智能客服,请问有什么可以帮助你吗?nCustomer:淘宝商家服务大厅nAI:,complet
12、ion:2021年10月商家服务大厅升级,新增活动大促专题XXXXnprompt:你是淘宝商家智能客服,你聪明、友善,能够帮助商家解决问题。nnCuStomer:你是谁?nAI:您好,我是淘宝商家智能客服,请问有什么可以帮助你吗?nCustOmer:单品宝是什么、nAI:,completion:单品宝是原限时打折的升级工具,可支持xxxprompt:你是淘宝商家智能客服,你聪明、友善,能够帮助商家解决问题。nnCustomer:你是谁?nAI:您好,我是淘宝商家智能客服,请问有什么可以帮助你吗?nCustomer:宝贝详情页可以添加多少个视频nAI:,completion:,在发布宝贝页一个宝
13、贝在详情页中只能添加一个视频,若您想XXXprompt:你是淘宝商家智能客服,你聪明、友善,能够帮助商家解决问题。nnCustomer:你是谁?nAI:您好,我是淘宝商家智能客服,请问有什么可以帮助你吗?nCustOmer:店铺经营主体变更需要先还清淘宝贷款吗nAI:,completion:需耍还清贷款。因为店铺经营主体变更流程中XXXXprompt:你是淘宝商家智能客服,你聪明、友善,能够帮助商家解决问题。XnXnCustomer:你是谁?nAI:您好,我是淘宝商家智能客服,请问有什么可以帮助你吗?nCustomer:天猫活动商品价格力严重溢价是什么意思、nAI:,completion:溢价
14、是指预计普惠成交价高于最低成交价,严重溢价的意思是指XXXX2.训练在OPenAl目前的模型中只有davinci、curie,babbage和ada,这些GPT-3,0版本的模型可以Fine-tuning适配,但再往后的版本暂不支持。训练的价格如下:Hn-tuning modelsOM*ybetfldtotat11mxM.IirnEofebontrwMMMratRtRVmdoeSOOOO*ClohmSOOOM-XlotaraCum0l0030.KtoicansSOOt2O.1KtokensDwnei$00300Kioiorw01300on可以看到使用训练后的Davinci模型的价格竟然高达0.
15、12美元/1Ktokens0再对比一下最新的GPT-4和GPT-3.5模型就知道它有多贵了:GPT-4Wttfibrod9raiknowMqaanddomainMprttM,GFT-can*owcomp*ninstructionsinnaturalIanQuagaand*owdrf*uMprat*11w*Mhaccuracy.1.hftMaM 8K COrtMtPmm#tSojo3 J 1 QoMnaCoanptettanSOgIKtoChMGPTmoditfoomNdIorMto0uTMortorHw*cofB-35TuoonprEKMmctDttnnrta.1.MmmwbOOQFTKSOj
16、0O3Kloten准备好数据、选择好模型后,便可以开始Fine-tuning了。方法很简单,只需要将文件上传至OPenAl后,再指定文件id和模型后即可对该模型进行训练了,具体的过程可以参照OpenAl官方文档。3 .训练结果使用训练的模型进行测试,Prompt同样采取如下格式:你是淘宝商家智能客服,你聪明、友善,能够帮助商家解决问题。Customer:你是谁?A工:您好,我是淘宝商家智能客服,请问有什么可以帮助你吗?Customer:大概效果如下:hqib测试账号单品宝OpenAI单品宝是原限时打折的升级工具,可支持:SKU级打折、减现、促销价;设置定向人群;设置单品限购(限购件数内买家以优
17、惠价拍下,限购件数,今更多服务4 .训练效果总结Fine-tuning是真的贵啊,加上一开始几次无效的尝试,很快就把免费的18美元的额度花完了,后面只能自己花钱充值了。作为一个纯正的穷哥们,虽然很难受,但也算为自己的兴趣交学费了。-上述基于Fine-tuning的方式效果并不理想,总结了如下几个原因:。训练数据太少。本次训练只提供了100多条数据,对于大模型来说算是九牛一毛了,大模型的训练还需更多优质的数据。训练方式问题。由于在这方面不够专业,在使用OPenAl提供的Fine-tuning接口时,只上传了一个文件,采用默认参数就完成了训练。如果能够使用更加专业的训练方式,比如RLHF(依据人类
18、反馈的强化学习),那么效果会更好。训练基于GPT-3模型,使用新的模型能有更好的效果。-PrOmPt真的很重要。给出一个好的提示,哪怕大模型不知道这个问题的答案,也能根据提示给出一个乍一看很像模像样的答案。基于Fine-tuning的方式存在另外一个很重要的问题:在商家服务领域,很多知识需要不断更新,时效性较强,需要及时修正大模型中过时的内容,就需要耗费比较多的人力,这又变成了另一个难题。二、基于Embedding的实践在基于Fine-tuning的方式失败后,找到了基于Embeddings的实践方案。首先用一句概括一下这个方法的原理:根据输入问题先通过搜索的方式检索出一些相关信息(Embed
19、ding),再将这些信息作为上下文辅助大模型回答这个问题(Chat)更简单地说,就是一种先搜再问的方式,下面便通过搜(Embedding)和问(Chat)这两个部分来介绍具体过程。1 .基于Embedding的流程介绍Embedding(嵌入),以我这个小白的理解就是将自然语言转化为机器语言,即将我们说的一段话转化为一堆浮点数(向量),这个向量中包含了模型对自然语言含义和特征的理解。对于两个向量,可以用距离来衡量它们的相似度,离的越近的两个向量它们的相似度越高,对应的自然语言文木相似度也就越高。那么我们只需要简单的两步即可:将商家服务知识库中的知识向量化后存入向量引擎;-将问题向量化后到向量引
20、擎中进行检索,即可得到和问题相关的内容。整体流程如下图所示:格式化2 .训练步骤1)内容格式化商家服务大厅中的内容包含如下几类,我们需要关注的是有哪些部分可以参与Embeddingo- 短视频:包含标题、相似问和描述等文本内容。工具:商家服务特色操作类解决方案,如发起投诉、申诉、报备等。包含标题、相似问等文本内容。- 专区:一类业务解决方案的集合。包含标题、相似问、描述等文本内容。- 知识:最常用的解决方案,分两类。文本知识(FAQ):文本知识,包含标题、相似问、知识内容等文本内容。SOP:操作类知识,通过SOP流程驱动帮助商家解决问题。包含标题、相似问等文本内容。在上面这些内容中,最终选择了
21、知识进行向量化,考虑到以下两点:- 知识绝大部分内容都是文本,可将其最大程度向量化,为后续的向量检索服务;- 知识在商家服务中所有内容的数量占比超过90%,并且也是评价解决率最高的内容类型。格式化的步骤如下:第一步:知识的内容为hlml富文本或markdown,将其处理为纯文本格式,会造成一些内容(如超链)丢失:第二步:对于过长的知识进行人工筛选,如果需要向量化,则将其以每500字符为一段的方式分为多个chunk,每个chunk的内容如下:title:知识标题;tags:相似问1相似问2;content:知识正文内容2)数据向量化通过OPenAl的Embedding接口对格式化后的文本进行向量
22、化,选择最新的text-embedding-ada-002模型,它支持的最大输入为8191个token:MODELGENERATIONTOKENIZERMAXINPUTTOKENSKNOWLEDGECUTOFFV2cl100k_base8191Sep2021V1GPT-2GPT-32046Aug2020它的输出是一个长度为1536的向量(1536个浮点数):Second-generationmodelsMODELNAMETOKENIZERMAXINPUTTOKENSOUTPUTDIMENSIONStext-embedding-ada-002cl100k_base81911536同时它的得分也更
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 阿里 AIGC 应用 部署
链接地址:https://www.desk33.com/p-804358.html