欢迎来到课桌文档! | 帮助中心 课桌文档-建筑工程资料库
课桌文档
全部分类
  • 党建之窗>
  • 感悟体会>
  • 百家争鸣>
  • 教育整顿>
  • 文笔提升>
  • 热门分类>
  • 计划总结>
  • 致辞演讲>
  • 在线阅读>
  • ImageVerifierCode 换一换
    首页 课桌文档 > 资源分类 > DOCX文档下载  

    计算机行业“智能网联”系列报告26:GPT大模型多模态应用展望-20230312-中信证券-43页正式版.docx

    • 资源ID:1194849       资源大小:1,023.62KB        全文页数:68页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    计算机行业“智能网联”系列报告26:GPT大模型多模态应用展望-20230312-中信证券-43页正式版.docx

    e中信证券CITICSECURITIES计算机行业“智能网联”系列报告26GPTj夫横型号横本应甬雇童杨泽原/丁奇/潘儒琛/李康桥中信证券研究部计算机组2023年3月12日请务必阅读末页的免责条款和声明核心观点e中信证券CITICSECURITIES ChatGPT通过大模型突破Al瓶颈,GPT4多模态应用带动商业化加速。AChatGPT凭借大算力、大规模数据训练、基于人类知识的强化学习等方式突破AI技术瓶颈,获得超预期的用户体验效果与市场反响。回顾GPT系列模型演进,GPT-1结合无监督预训练与有监督微调过程,GPT-2突出零样本设定,GPT-3强调上下文学习能力,参数量、训练数据量不断提升。我们预计即将推出的GPT-4或支持多模态应用,开启通往人工通用智能(AGi)之路,并有望控制训练成本,降低使用门槛。目前,ChatGPT已在C端推出ChatGPTPlus订阅计划,B端开放ChatGPTAPI,且成本降低为0.002美金/WOOtoken,海外多个应用率先接入。我们预计在GPT-4带动下,未来大模型以及多模态模型的商业化应用将进一步加速,带动行业景气度持续向上。 TranSfOrmer架构支撑GPT走向多模态,构筑AlGC领域核心基石。>GPT系列模型使用Transformer架构,当前基于Transformer的多模态研究为Al领域研究热点,Transformer已开始打破NLP与CV领域壁垒,有望支撑GPT系列模型走向多模态应用,构筑AIGC领域核心能力基石。我们梳理出GPT的潜在基础能力包括文本生成(分析)、代码生成、对话交互、机器翻译、图像生成、视频生成等。我们认为,前述基础能力将支撑GPT系列模型在通用与垂直领域的应用,典型应用场景如:通用领域一搜索引擎/办公软件,垂直领域一教育/金融/医疗/图像视频等。通用与垂直场景多点开花,GPT变革内容生成与交互方式。“GPT有望革新各行各业的内容生成与交互方式。基于GPT+文本&代码&对话&翻译&图像&视频,我们看好GPT类技术未来在通用与垂直场景的应用空间。例如,搜索引擎结合GPT将重塑搜索结果呈现方式,多模态的引入带来一站式的文本、图像、视频汇集结果,将大为提升用户信息收集效率,百度文心一言有望引领用户搜索体验的代际变革;在办公软件领域,金山WPS、福昕PDF未来若结合多模态GPT,有望深化用户在流程/事务/知识/创意/协作型等多类工作事项上的智能办公体验,同时支撑产品打开客单价提升空间;讯飞将以Al学习机率先落地类ChatGPT技术,有望在作文辅导、口语学习方面实现跃升;当虹科技具有视频Al建模能力、落地AlGC相关技术,GPT赋能下或进一步深化传媒、安全领域应用。"投资策略:伴随成本下降以及多模态的持续演进,GPT等大模型有望构筑AlGC核心基石,推动Al商业化进程加速和市场天花板打开。建议持续关注相关领域的Al公司:1)应用层:Al+行业:办公一金山办公、福昕软件,教育一科大讯飞,金融一同花顺、东方财富,医疗一创业慧康、卫宁健康,图像视频一商汤科技、当虹科技、云从科技、格灵深瞳、创新奇智、虹软科技、魅视科技,其他-拓尔思、汉王科技、海天瑞声等;2)基础设施层:海光信息、景嘉微、寒武纪、浪潮信息、工业富联、中科曙光等。风险提示:Al核心技术发展不及预期风险;科技领域政策监督收紧风险;企业数据安全风险;信息安全风险;行业竞争加剧风险。e中信证券CmCSCCURrnES目录1 .ChatGPT通过大模型突破Al瓶颈,GPT4多模态应用带动商业化加速2 .TranSfOrmer架构支撑GPT走向多模态,构筑AlGC领域核心基石3 .通用与垂直场景多点开花,GPT变革内容生成与交互方式4 .投资策略5 .风险提示1.ChatGPT通过大模型突破Al瓶颈,GPT-4多模态应用带动商业化加速11概述:ChatGPT为NLP下的Al大模型,性能和使用体验超预期0 ChatGPT是自然语言处理(NLP)下的Al大模型,通过大算力、大规模训练数据突破Al瓶颈。2022年11月,OPenAl推出ChatGPT,ChatGPT基于GPT3.5,使用人类反馈强化学习技术,将人类偏好作为奖励信号并微调模型,实现有逻辑的对话能力。 ChatGPT本质上是通过超大的统计语言模型,对词语序列的概率分布进行建模,利用上下文信息预测后续词语出现的概率分布,其表现的超预期反映了在算力水平提升的情况下大语言模型技术路线的成功,通过对大规模的未标注的文本数据进行训练,突破了Al发展的技术瓶颈。根据瞭望新闻周刊报道,OpenAI为了让ChatGPT的语言合成结果更自然流畅,使用了45TB的数据、近1万亿个单词来训练模型,训练一次的成本高达千万美元,一个月的运营成本需要数百万美CChatGPT帮助用户给邻居写信debughelp me w4e a short rate to introduce rnysetf to ry nc3b0rlis Cse S no< WorkE like I expect - bow do I fix It?HtraMy nafe is (Ybur Name* an I just med «1 next door. I wanted to rcad OJt and GtrCQM mf%fi fm lookIng ftwAr<1 to gHting to krow you Sd the fw)htXMood If you v* nod antmg or g want t CtuL plas don't huut to slop by or gtv m acaiBeatf Hrw)can yo make it w*e former?r*ul*f*9skrfrr : k<6n rtor>dfr clo( Mltox<fr)90 fwnc()(dfr cncl()r*ulWorketCxx < b. rultWork(ct)()n :« b.worker(ctx)eancl()f n EI rtwm < - zultnot*xCr)“turn Mltxrox. Aopnd (tt, < xMltWorkxCn >IMarhteiQhbof.,am WrWng to ltrodb mylf. My CdHte (YlMK Nanw ana I Mv rc<uy tca m rmt CkMr I WAntMl Ina rrowtf tn r<tAr out *d ay MSI «n Inotdng towrdto WUnq to know yc ard th 2abb0rh00dItB CHfnCUIuQ Stty Wher3 wrong wJth the code without more context Can you provk>e more information about Whatthe code b supposed to do and Wtmtisnl working as expected? AHo.s this te entire code or just a part of It?资料来源:OPenAl官网资料来源:OPenAl官网®中信证券ClTlC SECURITIESIJ概述:OPenAl倾力打造ChatGPT,获得微软有力加持 ChatGPT出自美国Al创业公司OpenAI,是Al大模型领域的领军者。OpenAI在2015年由SamAltman×PeterThieLReidHoffmanvElonMUSk等人创办。公司成立之初,即确定了包括制造“通用”机器人和使用自然语言的聊天机器人的发展目标。2019年,OpenAI获得来自微软的10亿美元投资,为Azure云端平台服务开发Al技术。2018年起,OPenAl开始发布GPT(GenerativePre-trainedTransformer)模型,2020年发布GPT-3,可以完成答题、写论文、代码生成等任务,被视为人工智能竞赛的里程碑事件,并直至ChatGPT的推出引起Al的热潮。 除了NLP领域,OpenAI还在多模态领域取得成就,包括发布了Al图像生成器DALL-E2,对音频转录编辑器DescriptxAl笔记应用Mem等进行投资。OpenAI发展历程OpenAI成立,马斯克等人参与发布ProximalPolicyOptimization算法发布GPT-2,获微软10亿美元投资研究从文本创建图像神经网络DALL-E展的主要目标,发布第一个项目OpenAIGymBeta发布GPT-1发布GPT-3,开放人工智能应用程序接口发布人工智能系统DALLE2与ChatGPT资料来源:OPenAl官网,中信证券研究部1.2演变:GPT1-无监督预训练+有监督微调®中信证券ClTlCSECURITIES GPT1发布于2018年6月,参数量达117亿,预训练数据量约5GB。GPT1包含预训练和微调两个阶段,考虑到自然语言处理任务中有标签的语料少,GPT-1先在大量的无标签数据上训练语言模型,然后在下游具体任务(如分类、常识推理、自然语言推理等)的有标签数据集上进行微调。1)在无监督训练中,GPT-1采用TranSfOrmer的架构,即标准的语言模型的目标函数,通过前面的词预测后面的词;2)在有监督训练中,采用标准的分类目标函数,仅需对第一阶段预训练的语言模型做出很小的结构改变,即可应用于各种下游任务。GPT-1包含预训练和微调两个训练阶段 GPT-1使用了BOokSCorPUS数据集来训练语言模型,其中有7000余本未出版的书籍。具体表现上,在有监督学习的12项任务中,GPT-1在其中9项上的表现优于专门训练的受监督模型。GPT-1在自然语言推理任务、问答和常识推理任务中的表现货科来源:improvingLanguageUnaerstanamgoygenerativerre-raining(AleCHactorckKann6厢SSlmnan、msaiimans寺JMNLImMNUmnSNLISdTatIQNLIRTEESlM*ELSto44<5ji9.3CAHd38(5«)MU79.089.3SlixiuMicAnwcfNelwurk35(3)幽1CAFES878.777.9MSGcaScnM714713.K2.3S9.2MuKHiMkRdMAftn6471272.1*KIl.7l-mriunedTramfcwroerLM(ur>SllSM99.9S60MethodSlofyCkvcRACEmRACFhRACEval>LS>kip(5576J.HtddcnCiMiercnccModd777.6DynamicFIHiOnNet67<9x).49.451.2BiAncntionMRU59119x)-¢0.250.3533FinelunedTransformerLM<our%)I562957459.0资料来源:ImprovingLanguageUnderstandingbyGenerativePre-Training(AlecRadford、KarthikNaraSimhan、TimSaIimanS等)1.2演变:GPT2一无监督预训练十多任务学习®中信证券ClTlCSECURITIES GPT2发布于2019年2月,参数量达15亿,预训练数据量约40GB。GPT1使用的概率条件模型为P(OUtPUtlinPut),GPT-2使用相同的无监督模型学习多个任务,将概率条件模型修改为p(outputinput,task),期望模型对不同任务的相同输入产生不同的输出。此外,GPT-2采取Zero-shot设定,不需要下游任务的标注信息,而是根据给定的指令理解任务。因此GPT-2的核心思想在于多任务学习。 GPT-2训练的数据集来自社交新闻平台Reddit,共有约800万篇文章,体积超40GBo具体表现上,在8个语言模型任务中,仅通过Zero-Shot学习,GPT-2在其中7个上领先。GPT2表明,随着模型容量和数据量增大,GPT模型的潜力仍有望进一步显现。语言模型参数增加,Zero-shot在NLP任务上表现提升ReadingComprehensionTranslation908070U60504030Human345M762M#ofparametersinLMDrQA÷PGNet50502211nUJ.J8UnsupervisedStatisticalMT5O345M762M#ofparametersinLM117M1542M117M161542M117MSummarization345M762M#ofparametersinLM2086420833222221TZaUJonoBJO20><#ofparametersinLM资料来源:LanguageModelsareUnsupervisedMultitaskLearners(AlecRadford、JeffreyWu、RewonChiId等)1.2演变:GPT3-无监督预训练+海量参数®中信证券ClTlCSECURITIESGPT3发布于2020年5月,参数量达1750亿,预训练数据量约45TB。GPT3采用海量的参数来进行训练和学习,不追求GPT2中的Zerochot设定,而是通过少量样例(FeWshot或Oneshot)理解并执行任务,对应为模型的上下文学习能力。GPT-3在作用到子任务时,无需进行微调,以避免庞大的模型体量所带来的高成本。具体表现上,在大量的语言模型数据集中,Zero-shot或FeW-shot设置下,GPT-3超过了LAMBADA和PennTreeBank;GPT-3也在很多复杂的NLP任务中超过微调后的最佳方法。Zero-shot% one-shot% few-shot fine-tune 5btFeWshot准确性表现增速更快表明大模型在上下文学习上更强大Aggregate Performance Across Benchmarks货科米源: % Language Models are t-ew-bot Learners uom B. Brown Benjamin Mann x NiCkRyder 等)1f*e E<vt vw w *or r» OQrfM MVwgVwMfWltHdt QPTa-卜wSQ- One Shot80 Zeco Shot81B04B0. 1.38 2.6B6.7B 13B175BParameters k LM (BiNions)资料来源:LanguageModelsareFew-ShotLearners(TomB.Brown、BenjaminMann、NickRyder等)1.2 演变:ChatGPT-基于GPT3.5,引入人类反馈强化学习®中信证券ClTlC SECURITIES ChatGPT基于GPT-3.5开发,最大的变化在于引入人类反馈强化学习。ChatGPT引入人类反馈强化学习,使用人工对模型回复进行打分排名,使得其更好地理解并完成指令。在表现上,ChatGPT能够理解指令、提供基本令人满意甚至是超预期的回答、进行多轮对话以及拒绝不合理的请求等。相较于GPT-3,ChatGPT的回答更有体系性、逻辑性;相较于对话机器人,ChatGPT能够回答假设性的问题,并可以连续对话。 未来,ChatGPT待强化的方向还包括:纳入最新的网络语料、避免不合理的答案输出等。SteplCollect demonstration data and train a supervised policy.Step 2Collect comparison data and train a reward model.Step 3Optimize a policy against the reward model using the PPO reinforcement learning algorithm.A prompt is sampled from our prompt dataset.A labeler demonstrates the desired output behavior.E>phin reinforcement MerfUn0 6 a gA prompt and several model outputs are sampled.A new prompt is sampled from the dataset.This data is used to fine-tune G PT-35 with supervised learning.A labeler ranks the outputs from best to worst.This data is used to train our reward model.Explain reriforcetnerrt 6yw MThe PPO model is initialized from the supervised policy.The policy generates an output.The reward model calculates a reward for the output.The reward is used to update the policy using PPO.ChatGPT训练包括训练监督策略模型、训练奖励模型、PPO强化学习三个阶段资料来源:OPenAl官网13展望:GPT4一此前外界预期参数量变化不大、使用门槛有望降低SSlSt GPT4备受业界期待,训练成本控制有望带动商业潜力的极大增强。ChatGPT的突出表现使得外界对GPT-4十分期待,自2021年以来便有报道称GPT-4"即将推出",OpenAI公司CEOSamAltman今年受StrictIyVC采访时表示GPT-4将在“有信心可以安全且负责任地运行时”推出。外界此前也曾预期,GPT-4的推出或分阶段进行,例如GPT-3也是先开放给合作伙伴、付费用户和学术机构,才在2022年底开放给公众。 在参数量上,针对有传言称GPT-4参数量将达到百万亿,OpenAI公司CEOSamAltman予以否定。此外,Al专家AlbertoRomero预测,GPT-4的重点在数据处理优化上,因此其使用门槛有望降低,我们预计训练成本的控制将带动其商业潜力的增强。GPT-4参数的传闻遭到否定Altman谈及GPT-4预计推出时间GPT-4175,000f000,000100r000,OOOrOOOzOOO资料来源:微信公众号“机器之心”100r000,000r000z000OpvrtAlCEOSmnlun<nhasddrvscdruonrcgirdingGPT4thecoany'asyetunreleasedlanguagenxtelandlatestintheGPTseriesthatformsthet<)un<1adonofRIChauXNChnIQpTsavingthat,peoplearebeggingtobedisappointedandtheywillbe."DUringanimervivwWiIhSIriCuyVeAhniHnwh、askedifGPI-4willCOmeoutInrhefirstquarterorhalfoftheyear,asmanvexpe.Herespondedbyofferingnocertaintimeframe.,*ItllCCmeoutatsomepoint,whenweareconfidentwecnndoitSafeiynndxesponsibly.,ahesaid.资料来源:TheVerge,中信证券研究部®中信证券ClTlC SECURITIES1.3 展望:GPT4最新消息称推出在即、支持多模态 最新消息称GPT4将于下周推出,支持多模态应用,开启通往人工通用智能之路。根据德国科技媒体“heise在线”报道,当地时间3月9日,微软德国公司首席技术官AndreasBraun在名为“AlinFocus-DigitalKiCkOff'的活动中透露称“将在下周推出GPT-4,它将是一个多模态模型,会提供完全不同的可能性例如视频”。这意味着GPT-4可以管理不同语言数据的输入和输出,也能够做到输出图像甚至视频。在活动上,微软Al技术专家对多模态Al的应用案例进行了介绍,例如能够将电话呼叫的语音直接记录成文本,这为微软位于荷兰的一家大型客户节省500个工作小时/天。微软德国公司首席技术官Andreas Braun称GPT-4即将推出 人工智能已从单模态转向多模态资料来源:heise online资料来源:微信公众号“水木学堂” GPT-4对多模态的支持使得外界对模型潜力的预期进一步强化,原因在于多模态感知是建立人工通用智能(AGI)的重要一步,基于此能够执行人类水平的一般任务。14商业模式:C端推出订阅制会员,B端提供调用APl接口®中信证券ClTlC SECURITIES ChatGPT迅速走红,以订阅制服务B端、C端客户,成本控制下将有效加速商业化落地。ChatGPT自年初以来,持续出圈,截至2023年1月末月活突破1亿,成为史上增长最快的消费者应用。考虑到计算资源所牵涉的庞大训练成本、运行成本,ChatGPT的商业化路径已正在探索、明确中。 商业模式-1)C端:OPenAl发布ChatGPTPIUS订阅计划,每月收费20美元,相较于免费版本,即便在高峰时段用户也能正常访问ChatGPT,响应时间更快,可以优先使用新功能,有望引领AI技术变现新模式;2)B端:OPenAl发布ChatGPTAPI,开发者可以将ChatGPT集成到产品中,价格为$0.002/1ktoken,相较于GPT3.5降低90%,我们预计成本控制后有望快速带动GPT相关应用爆发。根据微信公众号“智东西”,生鲜电商Instacartx跨境电商Shopifyv照片分享应用Snap、单词背诵应用QUiZIet等已率先接入ChatGPTAPI。OpenAl上线ChatGPTPlus订阅计划Quizlet将基于ChatGPTAPI推出Q-Chatf >w Omm . WV MB* .a. WMv资料来源:C)PenAl官网Thenewsubscriptionplan.ChatGPTRus.willbeavailableforS20moth,andsubscriberswillreceiveanumberofbenefits: GeneralaccesstoChatGPT.evenduringpeaktimes Fasterresponsetimes PriorityaccesstonewfeaturesandimprovementsChatGPTPlusisavailabletocustomersintheUnitedStatesandaroundtheworld.*WeloveourfreeusersandwillcontinuetoofferfreeaccesstoChatGPT.Byofferingthissubscriptionpricing,wewillbeabletohelpsupportfreeaccessavailabilitytoasmanypeopleaspossible.资料来源:OPenAl官网,T走向多模态,构筑AlGC领域核心基石2.Transformer架构支撑GP®中信证券ClTlC SECURITIES2.1 GPT采用的Transformer架构在NLP领域已跻身主流Transformer 的 Encoder-Decoder 示意图前馈神经网络自注意力机制输入部分RNNQ<?QQQ遗忘问题Srt-anetx)GPT沿用主流Transformer模型,该模型采用自注意力机制,在NLP上表现优于RNN(循环神经网络)。2017年,谷歌在AttentionisAllYouNeedS中提出Transformer模型,可用于文本摘要、机器翻译等NLP任务。在NLP方面,TranSfOrmer模型的自注意力(Self-attention)机制可以为输入序列中的任意位置提供上下文,进而模型能够一次性处理所有输入数据,而非RNN一次只处理一个单词的情况,由此模型可以减少训练时间,能够在更大的数据集上进行训练。目前,基于Transformer的预训练语言模型已成为NLP领域的主流。资料来源:动手学深度学习(李沐)资料来源AttentionisAllYouNeed(Google),中信证券研究部学术界挖掘出的Transformer建模的优点IOl(XX)t(XX)1,000,000就虫.0网他集肥力用SJ3p0J2ed J。SUO=Wl,0001O,O1,000IOOGPT-3(175B Megatron* / LM (8ring NLG (178 尸 MoE (15B1GPT2(例 BiT(940M严5 厅)-L / (340M) ELMo (94M)V(632M)2.2 Transformer也可用于CV领域,相较于CNN实现性能巨大提升SS1三S1TranSfOrmer也可用于CV(计算机视觉)领域,表现出巨大的性能提升。CV领域此前更多由CNN(卷积神经网络)主导,而TranSfOrmer凭借着自注意力机制,表现出了巨大的性能提升。根据微软亚洲研究院,TranSfOrmer在图像分类、物体检测等任务中刷新了测评记录,例如2020年TranSfOrmer被首次应用于图像分类任务,结合海量的预训练数据,ViT在ImageNetdK的validation评测集上取得88.55%的准确率。Transformer也在视频动作识别、视觉自监督学习、图像复原、图像分割等视觉任务中取得优异成绩。谷歌提出的ViT-MoE模型目前在参数量上领先,达到了150亿。Transformer在大模型方面展示了强大的可扩展性G-ShardSwitch(600B)>三(ISOOB)1020182019202020212022资料来源:为何TranSf Ormer在计算机视觉中如此受欢迎?(微软亚洲研究院)资料来源:为何TranSfOrmer在计算机视觉中如此受欢迎?(微软亚洲研究院)2.3Transformer支撑下GPT有望走向多模态,构筑AIGC领域核心基石S中信证券ClTlCSECURITIESGPT有望基于TranSfOrmer延伸至多模态,构筑AlGC核心基石,GPTM或实现领跑。当前,基于TranSfOrmer的多模态学习成为Al领域的研究热点,研究者们提出了大量的Transformer变体。鉴于Transformer具有较少的特定于模态的架构假设,以及生成式预训练、大模型&大数据路线的成功,Transformer能够联动CV与NLP,通过联合建模完成,打破CV与NLP领域之间的壁垒。微软亚洲研究院2022年推出BEiT-3预训练模型,在目标检测、实例分割、语义分割、视觉推理、图片描述生成等任务上取得了SOTA的迁移性能。我们认为,基于TranSfOrmer架构,GPT未来有望延伸至多模态,助力内容创作由UGC、PGC全面走向AlGC,赋能通用领域以及金融、教育、医疗、传媒等垂直行业。BEiT-3预训练示意图Masked Data Modeling7S*cr*fi MMMh EW*v-re 5N "m8harcckA1*-MMd Strf-AeaMan9 小BEiT-3 (Multfway Transformer)*mQMMwfemodai inputOwtttJOTOMa Dttccbcr ICOCOJ(IckrKkle.iCO)SemanU SeVrrMut 6 (AOF)O)F*ctuncd 2T (C0lVSMZMr,E !NlVUlTJt<COCO>PreVgirt SOTACoC4 FlaaMnQOBEiT-3在视觉语言任务上表现突出资料来源:通用多模态基础模型BEiT-3:引领文本、图像'多模态预训练迈向“大一统”(微软亚洲研究院)资料来源:通用多模态基础模型BEiT-3:引领文本'图像、多模态预训练迈向“大一统”(微软亚洲研究院)2.3Transformer支撑下GPT有望走向多模态,构筑AIGC领域核心基石S中信证券ClTlCSECURITIES微软Kosmos-I基于Transformer可完成语言任务和基础的视觉任务,反映GPT发展潜力。2023年3月初,微软推出多模态模型Kosmos-I,可以处理文本、音频、图像和视频等内容,并遵循指令(即零样本学习)以及在上下文中学习(即少样本学习)。Kosmos-I能够分析图像内容、解决视觉难题、执行视觉文本识别、通过视觉智商测试(准确度在22-26%之间)以及理解自然语言指令等。KosmoS-I的骨干网络是基于TranSfOrmer的因果语言模型,用于训练的数据来自多模态语料库,包括单模态数据(如文本)、跨模态配对数据(图像-文本对)和交错的多模态数据。Kosmos-I的表现说明了多模态大模型的应用潜力。Kosmos-I能够进行图像解释、视觉应答、数字识别Kosmos-I是第一个能完成零样本瑞文智商测试的Al模型EMmpItofK)TMWhichopbocancompletethematrix?ABC£FS®InpiMFrompt+田回+S®13lcorct?It.correct?I*correct?.KCofTaCPIsKccrcf71»itCO(TeCI?Pt*sIInput)资料来源:LanguageIsNotAllYouNeed(微软亚洲研究院)资料来源:LanguageIsNotAllYouNeed(微软亚洲研究院)2.3Transformer支撑下GPT有望走向多模态,构筑AIGC领域核心基石一醯中信证券超»ClTlCSECURITIESGPT基础能力包括文本生成(分析)、代码生成、对话交互、机器翻译、图像生成、视频生成等,借此赋能通用与垂直领域应用,有望带来商业模式的重塑与变革。A结合ChatGPT现有应用场景,以及对GPT未来模型演变的展望,我们归纳出GPT的基础能力,具体包括:文本生成(分析)、代码生成、对话交互、机器翻译、图像生成、视频生成等。我们认为,这些基础能力将支撑GPT在通用与垂直领域的应用,新的应用领域的出现也将基于这些能力的组合。例如,在办公软件领域,主要涉及GPT的文本能力;在教育行业,主要应用到文本、对话、翻译能力。GPT能力与主要应用领域NLP能力 拼写检查信息检索主题建模文本分类信息提取封闭会话文本概括问题回答机器翻译开放会话GPT能力赋能GPT应用多模态演进搜索引擎T重塑结果呈现方式办公软件教育T打Y深_T打开客单价空间金融医疗I图像视频资料来源:中信证券研究部整理弋个性化精准学习“强大投研能力支持Y导诊问诊辅助M临床研究助手7电子病历助手4信息采集信息制作19中信证券cmcSECURfTlEST变革内容生成与交互方式3.通用与垂直场景多点开花,GP3.1 通用场景:搜索引擎一GPT+文本&图像&视频重塑搜索结果呈现方,B1意建案搜索引擎接入GPT后结果呈现方式大为变化,或影响行业盈利模式与竞争格局。用户使用传统的搜索引擎时,需要手动翻阅搜索结果,判断是否为所需要的信息;而当搜索引擎接入GPT后,用户可直接获得答案集合。尽管受制于训练语蒋、成本等因素,答案准确性有待商榷,但在结果呈现方式上实现了变革,未来或与传统的搜索引擎相结合。如进一步实现多模态,搜索结果将更加丰富。微软在Bing中上线ChatGPT能力并开启测试,以聊天方式展示搜索结果,并可在对话中推荐广告。微软必应官方博客宣布,目前Bing日活突破1亿,集成搜索+聊天功能的Bing预览版自推出以来总聊天次数已超过4500万次。鉴于微软可能掀起搜索行业的第二次变革并颠覆此前的盈利模式,谷歌在2月初展示由大型语言模型LaMDA驱动的类ChatGPT应用Bard,并计划大范围推广。全球搜索引擎市场份额分布用户在新版Bing对话中发现广告推荐内容20U-U4 OCk * M.9$« Y4rf02.K '0.7X Y AMXHI.S1* DmklhnklLfO0.M* Goog

    注意事项

    本文(计算机行业“智能网联”系列报告26:GPT大模型多模态应用展望-20230312-中信证券-43页正式版.docx)为本站会员(夺命阿水)主动上传,课桌文档仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知课桌文档(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-1

    经营许可证:宁B2-20210002

    宁公网安备 64010402000986号

    课桌文档
    收起
    展开