2023大语言模型前世今生与未来.docx
《2023大语言模型前世今生与未来.docx》由会员分享,可在线阅读,更多相关《2023大语言模型前世今生与未来.docx(19页珍藏版)》请在课桌文档上搜索。
1、大语言模型前世今生与未来内容目录1大语言模型:NLP技术的奇点时刻41.1 技术探索:深度学习加速推进数据的无损压缩41.2 技术应用:预训练语言模型成为NLP主流51.3 技术跃迁:大语言模型可能打开通往AGl之路52 OPenAl与GPT:算法、工程、商业的融合62.1 GPT系列模型的发展历程:千锤百炼,终见“涌现”62.2 如何训练一个ChatGPT:预训练获得“智商”,指令微调提升“情商”72.3 模型智能的“涌现”是生成式AI浪潮的充要条件83 大模型应用:数据感知与代理(Agent)能力103.1 外部数据:三条融合垂域数据打造大模型的技术路径103.1.1 Fine-Tunin
2、g与In-ContextLearning的实现方式案例113.2 代理(Agent):为大模型加上四肢,强化复杂任务处理能力133.2.1 与计算机内部交互:插件(PIUginS)与代码解释器(COdClnterPreter)133.2.2 与物理世界交互:RoboticsTransformer2(RT-2).143.3 上下文长度:应用创新的关使靶点153.4 “大”模型“小”型化:应用落地的降本之道164 应用分析框架:通用能力与外部能力的组合175 投资建议186 风险提示19图表目录图1.人工智能底层算法的探索历程(19582017年)4图2.自然语言处理(NLP)发生的三次技术范式转
3、移5图3.本次以GPT为代表的生成式Al技术进步路线图6图4.OpenAI的GPT系列模型发展历程7图5.GPT模型训练流程8图6.当模型规模达到一定程度时将会出现“涌现”现象9图7.思维链提示可以显著提升大语言模型的性能9图8.打造垂域模型的三种基本方法10图9.Delta-Tuning是对LLM参数高效的微调范式12图10.LangChain+向量数据库打造企业专属知识库问答系统12图H大模型驱动的自主代理系统13图12.OpenAI发布首批70余款GPT-4插件14图13.执行逻辑计算的代码解释器插件示例14图14.机器人控制与思维链推理结合示例15图15.大模型驱动的自主代理系统16图
4、16.模型小型化的主要实现路径16图17.参数量化能够显著降低大模型的推理成本171大语言模型:NLP技术的奇点时刻1.1 技术探索:深度学习加速推进数据的无损压缩人类对机器智能的探索由来已久。如何让机器像人类一样思考,获得与人类相当的智能,一直是全球人工智能学者毕生追求的圣杯。自英国数学家阿兰图灵在1950年提出了“机器能思考吗”这一跨世纪的命题以来,人类就从未停止对机器智能的探索。从最简单的统计规则方法,到借鉴人类大脑生物结构的神经网络模型,再到如今拥有千亿级参数的超大规模预训练模型,深度学习因其能够实现非线性空间的有效变换,并能利用GPU等硬件实现加速计算,因而成为人工智能研究领域的核心
5、主线。无论是早期的RNN,还是其改进后的变体LSTM,亦或是本轮生成式Al浪潮的起源TranSformer,它们本质上都是用一个更有效的神经网络去实现数据的无损压缩,而数据的压缩能力或许就是机器智能的一种展现O图1.人工智能底层算法的探索历程(1958-2017年)时间事件1958年计算机科学家罗森布拉特提出了由两层神经元构成的神经网络,这种网络被称为感知机(Perceptron),是最基本的神经网络结构1982年约翰霍普菲尔德提出了一种具有记忆存储能力的Hopfield网络,开启了循环神经网络(RecurrentNeuraINetwork,RNN)的时代,也是LSTM(LongShort-T
6、ermMemory)、Transfomer模型的奠基者1986年“Al教父”杰弗里辛顿发明了适用于多层感知器的反向传播算法,它成为了日后训练深度神经网络的基础1989年杨立昆(现任FaCebook首席人工智能科学家)等人提出了卷枳神经网络(CNN,ConvolutionaINeuraINetworks),被广泛应用于计算机视觉的图像处理领域2012年AIexNet(一种卷积神经网络模型)引入了利用GPU并行运算,以压倒性的准确率夺得了当年ImageNet图像识别大赛的冠军。这一成果带来了深度神经网络的又一次复兴(其中,论文的第二作者是未来OpenAI的首席科学家IIyaSutskever)20
7、16年AIphaGo,这台由谷歌DeePMind开发的先进的人工智能棋手,出人意料地击败了强大的围棋世界冠军李世石,体现了人工智能在围棋这项历史悠久、被誉为人类智慧皇冠上的明珠的棋类运动中,取得了巨大的突破2017年谷歌机器翻译团队在发表的一篇具有里程碑意义的论文AttentionisAlIYouNeed中,精确提出了种米用Attention机制的全新模型TransformeroBert、GPT等预训练模型随之孕育而生1.2 技术应用:预训练语言模型成为NLP主流从单一小模型到预训练模型的范式转移。语言模型的本质是对任意一段文本序列进行概率建模,用一个高维向量来表示一个token的全部特征。
8、早期的研究者发明了WOrd2Vec,一种用于将自然语言中的单词表示为向量的技术,它基于神经网络,并且可以通过训练大规模语料库来学习单词之间的语义和语法关系,是深度学习应用在NLP领域的早期范式; 随着对长文本特征提取能力更强,计算效率更高的神经网络的提出,研究者开始尝试用更多的数据去训练一个能力更强的模型预训练模型,然后通过迁移学习的方法使其适用于下游特定的任务。这就是GOOgle在2018年提出的BERT(BidirectionalEncoderRepresentationfromTransformers,基于TranSformer的双向编码器)的核心思想;图2.自然语言处理(NLP)发生的
9、三次技术范式转移鞘讦样厚下沙任务改(PrWnRMgTuEnt)用海凄淳心病讨在 & 克本曲的电尊贵窿金HRn弊嚏示 (Pretramed*Prompt*g)BertITfansfocmer-Encoder)GPT (Transformer-Decoder)数据来:&: BERT: Pre-training OfDeep Bidirectional Transformers for language Understanding (Jacob Devlin, Ming-Wei Oiang 等)、财通迂券研究所 然而,OPenAl在这一时期坚定押注于GPT(GenerativePre-Trained
10、Transformer,基于TranSforrner的单向解码器)这一路线,坚信通过优化,下一个词预测,以及扩大训练模型的参数量和数据量,机器能够对文本语料拥有与人类相似的“理解”能力。当前,OPenAl与ChatGPT的成功,使得运用大语言模型做“预训练+提示”的范式,逐步取代了BERT时代“预训练+下游任务改造”的范式,成为了NLP业内新的主流。Word2Vec,Elmo.KNN,LSTM.41.3技术跃迁:大语言模型可能打开通往AGI之路直到2022年底ChatGPT横空出世,学界和工业界开始意识到,OPenAI对生成类模型(GPT)和算法规模化(SCalabiEy)的两个基础技术路线押
11、注,可能是让机器获得智能的可行路径,甚至是打开通往通用人工智能(AGI,ArtificialGeneralIntelligence)这一终极理想的金钥匙。因此,我们有理由相信,当前以ChatGPT为代表的大语言模型开启的本轮科技浪潮,其重要性可能高于过去任何一次Al技术的突破,实现AGl的愿景可能已并不遥远。当然,技术的突破与未来的潜在瓶颈也正都源于此,大模型与生俱来的HaHUCinatiOn(幻觉)使其输出的内容天生具有可靠性低的特点;另一方面,大模型的模型规模化能力的天花板也有待进一步探索。因此,我们认为提升模型可拿性和提升模型性能共同构成了大模型未来迭代的核心靶点。图3.本次以GPT为代
12、表的生成式AI技术进步路线图Hallucination (幻觉)如嗨决?、播用可靠性 一新的监管方式2C应用从 OSll .SCaIe- 涌现SOTAGPT-4开源 LLaMa.Bloom. GLMiS-Scale 】MfSflOO/ !通用人工智能(AGI)里防专共化更高效的算力2B/G应用数据来源:CEnwrgcntAbilitiesofLargeLanguageModels(JasonWci,YiTay等)、财通证券研究所2OPeIlAl与GPT:算法、工程、商业的融合2.1 GPT系列模型的发展历程:千锤百炼,终见“涌现” 对GPT路线的执着探索(GPT-1-3):2018年6月,OP
13、enAl推出基于TranSfOrmerDeeOder改造的GPT-I,但其在下游理解类任务的性能远低于同年IO月GOogle推出的基于EncodeETBERT;2019年GpT-2推出后,尽管性能仍不如BERT,但OpenAl发现ZerO-Sho1和Few-shot的方式可能可以直接训练一个通用的语言模型;到了2020年的GPT-3,OPenAl决定直接将模型参数扩大到了175B,这一举动正式掀开了大语言模型的序幕; 涌现能力的出现(GPT-3.5):OPenAl在GPT-3的基础上通过融合指令微调训练得到的InstructGPT.基于代码数据训练的Codex,以及基于人类反馈的强化学习(RL
14、HF,ReinforcementLearningfromHumanFeedback),训练得到了GPT-3.5,某种意义上实现了大模型能力的“涌现”(在某些复杂能力上实现突破)。GPT-3.5也成为了开启本轮生成式Al浪潮的爆款产品ChatGPT背后的核心功臣。 AGl的曙光已现(GpT4):2023年3月,OPenAl发布了基于GPT-3.5的SOTA(State-Of-The-Art)模型GPT4,该模型在多模态和可靠性方面实现了进一步扩展。从泛化能力的角度,GPT-4在创造力、图片理解能力、长文本处理能力和回答准确性方面都有所提升;从工程能力的角度看,通过与AZUre在算力设施上深度定制
15、合作,GPT-4能够以千分之一的计算量去预测在一定计算规模下的性能(预测最终模型的LoSS);从可靠性的角度,GPT-4自去年8月训练完成后,花费了大量时间做对齐(Alignmenl),甚至不惜牺牲部分性能以提升其内容输出的可靠性。图4.0PenAl的GpT系列模型发展历程GPT-12018.06GPT-22019.02GPT-32020.05Codex2021.07GPT-4 2023.03GPT-3.52022.03解码器架构(decoder-only)无监督的多任务学习需生成式预训练模型扩大模型规模In-Contexi Learning (ICL)探索规模化的极限代码预训练code-da
16、vinci-0022022.03,instmchontext-davinci-0022022.03+RLHF,text-davinci-0032022.09+chatGpt-3.5-turbo2023.03ChatGPT具加弋码能力指令跟随能力人机对齐通用能力数据来源:GPT4IhdinicaIRcponT(OpenAI),财通证券研究所2.2 如何训练一个ChatGPT:预训练获得“智商”,指令微调提升“情商”模型的训练可分解为预训练基座模型和基座模型的微调。基座模型(BaSeModel)是经过海量数据预训练(Pre-Irain)所得到,它具备一定的通用能力,并将消耗千卡级别的GPU算力。这
17、一阶段模型获得了知识,具备了“智商”;但基座模型往往不能很好地胜任下游的各式任务,以ChatGPT为例,模型需要通过指令微调,才能具备与人类流畅对话的能力(其中数据集需要包含各种与人类行为、情感相关的指令和任务),使得基座模型在预训练阶段获得的能力被进一步解锁/激发出来,从而实现从“智商”到“情商”的跨越。值得一提的是,模型微调不可避免将带来某些性能上的取舍,例如OpenAl在他们的指令微调论文中称其为“对齐税”(alignmenttax)o图5.GPT模型训练流程做训练奖励建模强化学习来自互联网的数据数以万亿的文本质低,数大匕微数据集WOK-IM比较数据 夕庖人员编写I质量高数量小提示*10
18、K -100K条提示外包人员编写vai, h语言模型语言模型下 f6a下 TMfrom二元分类根据偏好预测奖励有标签的示例*IO-IOOKSft (财+回鳗) 外包人员编写、质量高.数量小init from基座模型(base model)SF碓型(SFTmodeI)J 奖励模型(RMmOde)强化学习生成最大化奖励的tokeninit from SFT r use RM X强化模型(RLmodeI)I(X)Os 张 GPU以月为单位的训练时间I-IOO 张 GPUS以天为单位的训练时间I-IOO 张 GPUS以天为单位的训练时间1-1 张 GPUS际为单位初llt间获得“智商”获得“耐数捣来源
19、:MiCroSOliBUikl官网、财通证券研究所23模型智能的“涌现”是生成式AI浪潮的充要条件模型能力的涌现是生成式Al浪潮的充要条件。过去,模型的表现被认为与模型的规模之间服从PowerLaw,即随着模型规模指数级上升,模型性能只能线性增长;但Google的研究者在2022年发现,当模型规模达到某个阀值时,模型对某些复杂问题的处理性能突然呈现快速增长,这种现象则被称为EmergentAbilities,即涌现能力。例如,研究者发现当大语言模型规模达到一定程度时,思维链提示(ChainofThoughtprompting,CoT)可以显著提升大语言模型的性能,尤其适用于处理涉及数学或推理的
20、复杂任务: Zero-Shot-CoT:在PromPt提问的结尾只需附加Letsthinkstepbystep”这几个词; Few-shot-CoT:在PromPt中给与一些关键推理步骤的示例,让模型学习相应的推理过程;我们认为,CoT的意义在于模型可能已经学到了底层的推理过程而非筑计恚义上记住了榆入-输出的概率分布,这是模型拥有“智能”的一个重要体现,也显著打开了大语言模型未来应用的可为空间。图6.当模型规模达到一定程度时将会出现“涌现”现象 LaMDA(A) Mod. arithmetic- G PT-3 - Gopher(B) IPA transliterate 50) Amn8vl()
21、:M)2oloo (eqBBUItBX0-A- Chinchilla - PaLM -(C) Word unscramble 5050(E) TruthfulQA (F) 70(G) Multi-task NLU (H) Word in contextmappingsModel scale (training FLOPs)数据来源:Emergent Abiliiies of Large language Models(JaSOnWei,Yi Tay 等)、财通 t 正赛研究所7()605()如IM2O1OO图7.思维链提示可以显著提升大语言模型的性能Standard PromptingMode
22、l InputQ: Roger has 5 tennis balls. He buys 2 more cans of tennis balls. Each can has 3 tennis balls. How many tennis balls does he have now?A: The answer is 11.Q: The cafeteria had 23 apples. Ifthey used 20 to make lunch and bought 6 more, how many apples do they have?.Model OutputA: The answer is
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 语言 模型 前世 今生 未来

链接地址:https://www.desk33.com/p-717962.html