2023大语言模型前世今生与未来.docx

上传人：夺命阿水

文档编号：717962

上传时间：2023-10-27

格式：DOCX

页数：19

大小：421.62KB

《2023大语言模型前世今生与未来.docx》由会员分享，可在线阅读，更多相关《2023大语言模型前世今生与未来.docx（19页珍藏版）》请在课桌文档上搜索。

1、大语言模型前世今生与未来内容目录1大语言模型：NLP技术的奇点时刻41.1 技术探索：深度学习加速推进数据的无损压缩41.2 技术应用：预训练语言模型成为NLP主流51.3 技术跃迁：大语言模型可能打开通往AGl之路52 OPenAl与GPT:算法、工程、商业的融合62.1 GPT系列模型的发展历程：千锤百炼，终见“涌现”62.2 如何训练一个ChatGPT:预训练获得“智商”，指令微调提升“情商”72.3 模型智能的“涌现”是生成式AI浪潮的充要条件83 大模型应用：数据感知与代理（Agent）能力103.1 外部数据：三条融合垂域数据打造大模型的技术路径103.1.1 Fine-Tunin

2、g与In-ContextLearning的实现方式案例113.2 代理（Agent）:为大模型加上四肢，强化复杂任务处理能力133.2.1 与计算机内部交互：插件（PIUginS）与代码解释器（COdClnterPreter）133.2.2 与物理世界交互：RoboticsTransformer2（RT-2）.143.3 上下文长度：应用创新的关使靶点153.4 “大”模型“小”型化：应用落地的降本之道164 应用分析框架：通用能力与外部能力的组合175 投资建议186 风险提示19图表目录图1.人工智能底层算法的探索历程（19582017年）4图2.自然语言处理（NLP）发生的三次技术范式转

3、移5图3.本次以GPT为代表的生成式Al技术进步路线图6图4.OpenAI的GPT系列模型发展历程7图5.GPT模型训练流程8图6.当模型规模达到一定程度时将会出现“涌现”现象9图7.思维链提示可以显著提升大语言模型的性能9图8.打造垂域模型的三种基本方法10图9.Delta-Tuning是对LLM参数高效的微调范式12图10.LangChain+向量数据库打造企业专属知识库问答系统12图H大模型驱动的自主代理系统13图12.OpenAI发布首批70余款GPT-4插件14图13.执行逻辑计算的代码解释器插件示例14图14.机器人控制与思维链推理结合示例15图15.大模型驱动的自主代理系统16图

4、16.模型小型化的主要实现路径16图17.参数量化能够显著降低大模型的推理成本171大语言模型：NLP技术的奇点时刻1.1 技术探索：深度学习加速推进数据的无损压缩人类对机器智能的探索由来已久。如何让机器像人类一样思考，获得与人类相当的智能，一直是全球人工智能学者毕生追求的圣杯。自英国数学家阿兰图灵在1950年提出了“机器能思考吗”这一跨世纪的命题以来，人类就从未停止对机器智能的探索。从最简单的统计规则方法，到借鉴人类大脑生物结构的神经网络模型,再到如今拥有千亿级参数的超大规模预训练模型，深度学习因其能够实现非线性空间的有效变换，并能利用GPU等硬件实现加速计算，因而成为人工智能研究领域的核心

5、主线。无论是早期的RNN,还是其改进后的变体LSTM,亦或是本轮生成式Al浪潮的起源TranSformer,它们本质上都是用一个更有效的神经网络去实现数据的无损压缩，而数据的压缩能力或许就是机器智能的一种展现O图1.人工智能底层算法的探索历程(1958-2017年)时间事件1958年计算机科学家罗森布拉特提出了由两层神经元构成的神经网络，这种网络被称为感知机(Perceptron),是最基本的神经网络结构1982年约翰霍普菲尔德提出了一种具有记忆存储能力的Hopfield网络，开启了循环神经网络(RecurrentNeuraINetwork,RNN)的时代，也是LSTM(LongShort-T

6、ermMemory)、Transfomer模型的奠基者1986年“Al教父”杰弗里辛顿发明了适用于多层感知器的反向传播算法，它成为了日后训练深度神经网络的基础1989年杨立昆(现任FaCebook首席人工智能科学家)等人提出了卷枳神经网络(CNN,ConvolutionaINeuraINetworks),被广泛应用于计算机视觉的图像处理领域2012年AIexNet(一种卷积神经网络模型)引入了利用GPU并行运算，以压倒性的准确率夺得了当年ImageNet图像识别大赛的冠军。这一成果带来了深度神经网络的又一次复兴(其中，论文的第二作者是未来OpenAI的首席科学家IIyaSutskever)20

7、16年AIphaGo,这台由谷歌DeePMind开发的先进的人工智能棋手，出人意料地击败了强大的围棋世界冠军李世石，体现了人工智能在围棋这项历史悠久、被誉为人类智慧皇冠上的明珠的棋类运动中，取得了巨大的突破2017年谷歌机器翻译团队在发表的一篇具有里程碑意义的论文AttentionisAlIYouNeed中，精确提出了种米用Attention机制的全新模型TransformeroBert、GPT等预训练模型随之孕育而生1.2 技术应用：预训练语言模型成为NLP主流从单一小模型到预训练模型的范式转移。语言模型的本质是对任意一段文本序列进行概率建模，用一个高维向量来表示一个token的全部特征。

8、早期的研究者发明了WOrd2Vec,一种用于将自然语言中的单词表示为向量的技术，它基于神经网络，并且可以通过训练大规模语料库来学习单词之间的语义和语法关系，是深度学习应用在NLP领域的早期范式；随着对长文本特征提取能力更强，计算效率更高的神经网络的提出，研究者开始尝试用更多的数据去训练一个能力更强的模型预训练模型，然后通过迁移学习的方法使其适用于下游特定的任务。这就是GOOgle在2018年提出的BERT（BidirectionalEncoderRepresentationfromTransformers,基于TranSformer的双向编码器）的核心思想；图2.自然语言处理（NLP）发生的

9、三次技术范式转移鞘讦样厚下沙任务改(PrWnRMgTuEnt)用海凄淳心病讨在 & 克本曲的电尊贵窿金HRn弊嚏示 (Pretramed*Prompt*g)BertITfansfocmer-Encoder)GPT (Transformer-Decoder)数据来:&： BERT: Pre-training OfDeep Bidirectional Transformers for language Understanding (Jacob Devlin, Ming-Wei Oiang 等)、财通迂券研究所然而，OPenAl在这一时期坚定押注于GPT（GenerativePre-Trained

10、Transformer,基于TranSforrner的单向解码器）这一路线，坚信通过优化，下一个词预测，以及扩大训练模型的参数量和数据量，机器能够对文本语料拥有与人类相似的“理解”能力。当前，OPenAl与ChatGPT的成功，使得运用大语言模型做“预训练+提示”的范式，逐步取代了BERT时代“预训练+下游任务改造”的范式，成为了NLP业内新的主流。Word2Vec,Elmo.KNN,LSTM.41.3技术跃迁：大语言模型可能打开通往AGI之路直到2022年底ChatGPT横空出世，学界和工业界开始意识到，OPenAI对生成类模型（GPT）和算法规模化（SCalabiEy）的两个基础技术路线押

11、注，可能是让机器获得智能的可行路径，甚至是打开通往通用人工智能（AGI,ArtificialGeneralIntelligence)这一终极理想的金钥匙。因此，我们有理由相信，当前以ChatGPT为代表的大语言模型开启的本轮科技浪潮，其重要性可能高于过去任何一次Al技术的突破，实现AGl的愿景可能已并不遥远。当然，技术的突破与未来的潜在瓶颈也正都源于此，大模型与生俱来的HaHUCinatiOn(幻觉)使其输出的内容天生具有可靠性低的特点；另一方面，大模型的模型规模化能力的天花板也有待进一步探索。因此，我们认为提升模型可拿性和提升模型性能共同构成了大模型未来迭代的核心靶点。图3.本次以GPT为代

12、表的生成式AI技术进步路线图Hallucination (幻觉)如嗨决？、播用可靠性一新的监管方式2C应用从 OSll .SCaIe- 涌现SOTAGPT-4开源 LLaMa.Bloom. GLMiS-Scale 】MfSflOO/ !通用人工智能(AGI)里防专共化更高效的算力2B/G应用数据来源：CEnwrgcntAbilitiesofLargeLanguageModels(JasonWci,YiTay等)、财通证券研究所2OPeIlAl与GPT:算法、工程、商业的融合2.1 GPT系列模型的发展历程：千锤百炼，终见“涌现” 对GPT路线的执着探索(GPT-1-3):2018年6月，OP

13、enAl推出基于TranSfOrmerDeeOder改造的GPT-I,但其在下游理解类任务的性能远低于同年IO月GOogle推出的基于EncodeETBERT;2019年GpT-2推出后，尽管性能仍不如BERT,但OpenAl发现ZerO-Sho1和Few-shot的方式可能可以直接训练一个通用的语言模型；到了2020年的GPT-3,OPenAl决定直接将模型参数扩大到了175B,这一举动正式掀开了大语言模型的序幕；涌现能力的出现(GPT-3.5):OPenAl在GPT-3的基础上通过融合指令微调训练得到的InstructGPT.基于代码数据训练的Codex,以及基于人类反馈的强化学习(RL

14、HF,ReinforcementLearningfromHumanFeedback),训练得到了GPT-3.5,某种意义上实现了大模型能力的“涌现”(在某些复杂能力上实现突破)。GPT-3.5也成为了开启本轮生成式Al浪潮的爆款产品ChatGPT背后的核心功臣。 AGl的曙光已现(GpT4):2023年3月，OPenAl发布了基于GPT-3.5的SOTA(State-Of-The-Art)模型GPT4,该模型在多模态和可靠性方面实现了进一步扩展。从泛化能力的角度，GPT-4在创造力、图片理解能力、长文本处理能力和回答准确性方面都有所提升；从工程能力的角度看，通过与AZUre在算力设施上深度定制

15、合作，GPT-4能够以千分之一的计算量去预测在一定计算规模下的性能(预测最终模型的LoSS);从可靠性的角度，GPT-4自去年8月训练完成后，花费了大量时间做对齐(Alignmenl),甚至不惜牺牲部分性能以提升其内容输出的可靠性。图4.0PenAl的GpT系列模型发展历程GPT-12018.06GPT-22019.02GPT-32020.05Codex2021.07GPT-4 2023.03GPT-3.52022.03解码器架构(decoder-only)无监督的多任务学习需生成式预训练模型扩大模型规模In-Contexi Learning (ICL)探索规模化的极限代码预训练code-da

16、vinci-0022022.03，instmchontext-davinci-0022022.03+RLHF,text-davinci-0032022.09+chatGpt-3.5-turbo2023.03ChatGPT具加弋码能力指令跟随能力人机对齐通用能力数据来源：GPT4IhdinicaIRcponT(OpenAI),财通证券研究所2.2 如何训练一个ChatGPT:预训练获得“智商”，指令微调提升“情商”模型的训练可分解为预训练基座模型和基座模型的微调。基座模型(BaSeModel)是经过海量数据预训练(Pre-Irain)所得到，它具备一定的通用能力，并将消耗千卡级别的GPU算力。这

17、一阶段模型获得了知识，具备了“智商”；但基座模型往往不能很好地胜任下游的各式任务，以ChatGPT为例，模型需要通过指令微调，才能具备与人类流畅对话的能力(其中数据集需要包含各种与人类行为、情感相关的指令和任务)，使得基座模型在预训练阶段获得的能力被进一步解锁/激发出来，从而实现从“智商”到“情商”的跨越。值得一提的是，模型微调不可避免将带来某些性能上的取舍，例如OpenAl在他们的指令微调论文中称其为“对齐税”(alignmenttax)o图5.GPT模型训练流程做训练奖励建模强化学习来自互联网的数据数以万亿的文本质低,数大匕微数据集WOK-IM比较数据夕庖人员编写I质量高数量小提示*10

18、K -100K条提示外包人员编写vai, h语言模型语言模型下 f6a下 TMfrom二元分类根据偏好预测奖励有标签的示例*IO-IOOKSft (财+回鳗) 外包人员编写、质量高.数量小init from基座模型(base model)SF碓型(SFTmodeI)J 奖励模型(RMmOde)强化学习生成最大化奖励的tokeninit from SFT r use RM X强化模型(RLmodeI)I(X)Os 张 GPU以月为单位的训练时间I-IOO 张 GPUS以天为单位的训练时间I-IOO 张 GPUS以天为单位的训练时间1-1 张 GPUS际为单位初llt间获得“智商”获得“耐数捣来源

19、：MiCroSOliBUikl官网、财通证券研究所23模型智能的“涌现”是生成式AI浪潮的充要条件模型能力的涌现是生成式Al浪潮的充要条件。过去，模型的表现被认为与模型的规模之间服从PowerLaw,即随着模型规模指数级上升，模型性能只能线性增长；但Google的研究者在2022年发现，当模型规模达到某个阀值时，模型对某些复杂问题的处理性能突然呈现快速增长，这种现象则被称为EmergentAbilities,即涌现能力。例如，研究者发现当大语言模型规模达到一定程度时，思维链提示(ChainofThoughtprompting,CoT)可以显著提升大语言模型的性能，尤其适用于处理涉及数学或推理的

20、复杂任务： Zero-Shot-CoT：在PromPt提问的结尾只需附加Letsthinkstepbystep”这几个词； Few-shot-CoT:在PromPt中给与一些关键推理步骤的示例，让模型学习相应的推理过程；我们认为，CoT的意义在于模型可能已经学到了底层的推理过程而非筑计恚义上记住了榆入-输出的概率分布，这是模型拥有“智能”的一个重要体现，也显著打开了大语言模型未来应用的可为空间。图6.当模型规模达到一定程度时将会出现“涌现”现象 LaMDA(A) Mod. arithmetic- G PT-3 - Gopher(B) IPA transliterate 50) Amn8vl()

21、:M)2oloo (eqBBUItBX0-A- Chinchilla - PaLM -(C) Word unscramble 5050(E) TruthfulQA (F) 70(G) Multi-task NLU (H) Word in contextmappingsModel scale (training FLOPs)数据来源：Emergent Abiliiies of Large language Models(JaSOnWei,Yi Tay 等)、财通 t 正赛研究所7()605()如IM2O1OO图7.思维链提示可以显著提升大语言模型的性能Standard PromptingMode

22、l InputQ: Roger has 5 tennis balls. He buys 2 more cans of tennis balls. Each can has 3 tennis balls. How many tennis balls does he have now?A: The answer is 11.Q: The cafeteria had 23 apples. Ifthey used 20 to make lunch and bought 6 more, how many apples do they have?.Model OutputA: The answer is

23、27. X.Chain-Of-Thought PromptingModel InputQ: Roger has 5 tennis balls. He buys 2 more cans of tennis balls. Each can has 3 tennis balls. How many tennis balls does he have now?A: Roger started with 5 balls. 2 cans of 3 tennis balls each is 6 tennis balls. 5 + 6 = 11. The answer is 11.Q: The cafeter

24、ia had 23 apples. If they used 20 to make lunch and bought 6 more, how many apples do they have?Model OutputA: The cafeteria had 23 apples originally. They used 20 to make lunch. So they had 23 - 20 = 3. They bought 6 more apples, so they have 3 + 6 = 9 The answer is 9.，方案：在一个通用大模型的基础上，通过指令微调将垂域知识训练

25、到模型的参数中（小幅改动模型）；方案：在一个通用大模型的基础上，通过上下文学习（In-ContextLearning）将垂域知识放在模型的提示词Prompt中（不训练模型，用模型）。方案方案方案标准训练流程图8.打造垂域模型的三种基本方法通用大模型垂域大模型通用大模型海贸通用数据微调后的垂域大模型预训练模型In-Context Learning数据来源：Llama 2: Open Foundation and Fine-Tuned Chat Models(HugoTouvron, Louis Martin 等)、财通证券研究所Instruction |RLHF I预训练模型*-Instru

26、ction +少高质+RM I垂域数据Delta-Tuning Instruction 1 *2且0耍。RLHF ,instructionRIHF预训练模型”预训练模型方案实现难度最大，模型对垂域知识的聿样本学习能力最强（ZerOshot）, 算力消耗集中在预训练。方案对垂域数据的质量和数量要求都很高，且需要从头训练一个基座模型的工程能力和算力储备，但是一旦训练成功，模型推理泛化能力理论上是最好的（大语言模型的知识是在预训练阶段获得的）。因此，方案适合于有大量垂域数据和算力购买能力的大型公司；方案实现难度次之，模型能够具备一定的垂域知识零样本学习能力，算力消耗集中在微调和推理。方案本质是

27、借鉴了Bert做下游任务改造的思路。然而，对大模型的微调实则将预训练阶段获得的能力以某种方式激发出来，但这种能力的激发是有代价的，包括但不限于会出现原有知识/能力的遗忘。此外，微调后的模型通用能力上限依然受制于基座模型本身。因此，方案适合具有丰富调节参数经验团队的模型或应用厂商；方案实现难度最低，模型不具备垂域知识的零样本学习能力，算力消耗集中在推理端。方案是将垂域数据保存在一个外挂的向量数据库中，通过InContextLearning让大模型在prompt中学习相关信息。方案其实就是大家口中经常讲的MaaS(ModelasaService),这一方式实现起来方便快捷，并且能够快速实现外部数据

28、的更新，目前主要瓶颈是大语言模型对PromPt中输入上下文长度(InContextLength)的支持。值得一提的是，方案并不完全和方案独立，它们之间可以相互组合，特别是在一些需要高频更新外部数据的应用场景，方案是唯一能适用的办法；此外,方案为下游客户提供了一个低成本、少量数据的“冷启动”的方式，非常适合想要快速尝鲜大模型功能的下游客户。3.1.1 Fine-Tuning与In-ContextLearning的实现方式案例Delta-Timing是对大模型参数高效的微调范式。当大模型的规模越来越大时，做全局的微调，即重新训练所有的模型参数无疑会变得愈发不可行，亟需一种参数高效(Paramete

29、r-efficient)的新范式。清华与智源研究院在DeltaTuning:AComprehensiveStudyofParameterEfficientMethodsforPre-trainedLanguageModels论文中对解决上述问题的方法进行了总结，这些方法本质上都是在尽量不改变原有模型参数的情况下引入一个增量参数(DeItaParemterS)进行微调，因此将它命名为Delta-TUning。在众多Delta-TUning的实践中，最被开发者广泛关注和使用的，当属微软提出的LoRA(Low-RankAdaptationofLargeLanguageModels,大语言模型的低阶适

30、应)。LORA的原理是冻结预先训练好的模型参数，在TranSfOrmer架构的每一层注入一个可训练的低秩矩阵，并在模型训练过程中只训练降维矩阵A与升维矩阵B(下图橙色部分)，其本质是基于大语言模型内在的低秩特性，增加旁路矩阵来模拟全参数微调。以微调175B参数的GPT-3为例，与Adam调优的GPT-3相比，LoRA可训练参数量减少了1万倍，GPU内存需求减少了3倍，显著降低了微调模型的成本。图9Delta-Tming是对LLM参数高效的微调范式雁然I Frozen Parameters可蠲优参数 Tunable ParametersLoRA (Low-Rank Adaptation )效据来

31、淞：LoRA:Low-RankAdaptationofLargeLanguageModels（EdWardJ.Hu.YelongShen等）,teltaTuning:AComprehensiveStudyofParameterEfficientMetliodstorPre-trainedIangUageModels（NingDing,YujiaQin等），财通证券研究所1.angChain+向量数据库打造企业专属知识库问答系婉。LangChain是一套强大的大模型应用开发框架，集成了模型I/O、数据连接、链、代理、内存、回调等模块，赋予了大模型：1）数据感知（可连接其他的外部数据源）、2）代理

32、能力（允许大模型与环境互动）。在LangChain的帮助下，开发者可以更加便捷的将大语言模型这一“大脑”装上“四肢”，赋予其访问本地文件、调用APl接口、访问互联网等进阶能力，快速打造知识库问答、聊天机器人、结构化数据分析等功能。因此，使用LangChain将大模型与企业的垂域知识库连接（通常以向量数据库的形式），将用户输入的PromPt在向量数据库中检索最相关的内容，再将返回的内容和输入的PromPt本身一起成为输入给大模型的最终prompt,成为了另一种可实现“大模型的通用能力+垂直领域的专业知识”的技术路径。图10.LangChain+向量数据库打造企业专属知识库问答系统“计算相帔（Fa

33、iSS搜索）、夕 LangChain输入到LLM文本块查询向量3.2代理（Agent）:为大模型加上四肢，强化复杂任务处理能力提示工程的下一个前沿。通过增加代理能力（Agent）,让大语言模型具备自主理解、规划、执行复杂任务的能力，彻底改变传统的人机交互方式，是当前应用侧探讨的另一个热门方向。目前大模型的代理能力可以体现在两方面：1）允许单个大模型使用工具、2）允许多个大模型协作竞争。OPenAl安全系统负责人LilianWeng近期发表相关博文，她认为在大语言模型驱动的Al智能体中，大语言模型扮演了“大脑”的角色，规划（任务分解+反思总结）、记忆（短期记忆+长期记忆）、工具使用（调用API+

34、访问外部数据）是实现它的三个核心组件。此前在GitHUb上关注度极高的AUtOGPT项目实现了对大语言模型的循环调用，本质上是对大语言模型代理能力的充分呈现，因此也被称为“提示工程的下一个前:几”ZtJO图11.大模型驱动的自主代理系统长期记忆短期记忆13.2.1 与计算机内部交互：插件（Plugins）与代码解释器（CodeInterpreter）GPT-4插件开放生态不断丰富，代码解释器大幅提高用户工作效率。2023年5月，OpenAI发布首批70余款插件（plugins）,使GPT-4能通过插件检索互联网实时数据、调用公司或个人资料库、执行订机票等操作。插件功能的本质是在揄入ChatGP

35、T的prompt中增加一段备选插件的“API生成手册”，是一种赋予大模型代理能力实现与计算机环境进行交互的经典案例。2023年7月，ChatGPT的代码解释器插件CodeInterpreter正式向所有Plus用户开放。代码解释器具备以下功能:使用Python进行编程、处理上传和下载、在受保护的沙箱化执行环境中运行、持久会话等，用户可直接使用自然语言要求ChatGPT读取文件（100M以内）、分析编辑数据以及生成图片、视频、代码等。代码解释器是典型的让模型使用工具的产品，我们认为这代表了大模型应用未来发展的底层范式，即应用开发将是一个面向自然语言编程的过程。图12.0PenAl发布首批70余款

36、GPT-4插件图13.执行逻辑计算的代码解释器插件示例数据来源：量子位、财通滓券研究所a brick weighs 30% of a brick plus five GPUs there are 100 bricks and 200 GPUs in a metric ton how much does a brick weigh?Lets call the weight of a brick B and the weight of a GPU *G. We can set up an equation based on the information given:from synpy impo

37、rt symbols, Eqt solveBv G = 3ywbols(aB G)eql = Eq(Bt 0.3 B 5 G)q2 = Eq(i B + 2 * G1 1(XX) solution = solv(eqll q2)l (B, G) solutionB# Result7.812500000000Finished calculating *The weight of a brick is 718125 kg.找据来源：OPenAl官网、财通证券研究所on the ng equaldthe J(G).3.2.2 与物理世界交互：RoboticsTransformer2(RT-2)谷歌发

38、布机器人RT-2,打开大模型与物理世界的交互窗口。2023年7月，谷歌DeepMind推出新款机器人模型RobOtiCSTransformer2(RT-2)oRT-2是全新的视觉-语言-动作(VLA)模型，可以从互联网和机器人数据中自动学习，并将这些知识转化为机器人控制的通用指令以实现一系列操作动作。同时，在思维推理链加持下，RT-2可执行深度语义推理完成复杂度更高的任务，类似于实体机器人版的ChatGPTo例如，人类发出指示：我需要锤钉子，场景中的什么物体可能有用？机器人计划：选择桌上的石头；机器人行动：1129138122132132106127(该字符串为机器人动作标记的数列)。我们认为

39、，RT-2展示了构建通用机器人的前景，打开了大模型与物理世界的交互窗口。随着多模态融合的大模型日益成熟，以及以人形机器人为代表的新物理载体在硬件端迭代升级，大模型的代理能力将被赋予更丰富的含义。图14.机器人控制与思维链推理结合示例Instruction:Ineedtohammeranail,whatobjectfromthescenemightbeuseful?Prediction:Rocks.Action:1129138122132132106127鼓摄来通：谷欹DCePMind官网、财通证券研究所3.3 上下文长度：应用创新的关键靶点上下文长度决定提示工程的复杂度。如前文所述，以GPT为

40、代表的大语言模型带来的范式转移，是用户只需要将完成任务所需信息输入到PromPl中（In-Context-Learning）,而无需将这些信息训练到模型的参数中（Fine-Tuning）。无论是3.1介绍的引入外部数据的方案（外挂向量数据库），还是3.2介绍的代理能力（Agent）,其本质都是一种提示工程（PromptEngineering）功能更强大的大模型应用但实际使用中，大模型支持的最大上下文长度往往存在限制（GPT4目前最大支持32k,ClaUde可支持100k,初代开源的LLaMa只支持2k,LLaMa2.0则升级到了4k）。存在该限制的主要原因是：1）过长的输入会使模型在推理时计笄

41、和内存资源使用急剧扩大（TranSformer的计算复杂度和空间复杂度随序列长度N呈二次方增长）、2）过长的训练数据也可能因为关联问题带来模型质量的下降（Attention机制对长文本的中间记忆能力较弱）。为了实现提升大模型支持的最大上下文长度，开发者尝试了多种方式，包括但不限于更好的位置编码（ALiBi,AttentionwithLinearBiases）稀疏注意力机制、FlashAttention（用于GPU的注意力层高效实现）、多查询注意力（MUlti-QUeryAHention,MQA）等等。图15.大模型驱动的自主代理系统模型名称最高输入发布者开源情况Claude-1.3-1OOK1

42、00KAnthropic口商用MPT-7B-storywriter65KMosaicML口开源且免费商用ChatGLM2-6B32K清华&智谱口开源但收费商用GPT-4-32k32KOpenAI口商用LongChat-13B-16K16KLM-SYS口开源但不可商用GPT-3.5-Turbo-16K16KOpenAI口商用MPT-30B-chat8KMosaicML口开源但不可商用XGen-7B系列8KSaIesforce口部分开源且免费商用PaLM28KGoogIe口商用LLaMa24KMeta口开源且免费商用LLaMa12KMeta口开源但不可商用据来淞：Anthropic官网、Dalal

43、eaner、MetaAl官网、财通证券研究所3.4 “大”模型“小”型化：应用落地的降本之道模型小型化技术主要包括压缩参数和压缩结构。大模型应用落地的另一个关键堵点是推理成本的高企，除了以英伟达为代表的加速计算厂商在硬件侧持续降本夕卜,我们也可以对模型本身进行压缩以降低推理成本。模型小型化是指在保持模型精度的前提下，通过压缩模型参数和结构，将已经训练好的大型模型缩小为能够在边缘端或其他资源受限环境中运行的精简小型模型。根据深度学习模型压缩与加速综述中的分类，压缩参数的主要方法包括：参数剪枝、参数量化、低秩分解和参数共享等；压缩结构的主要方法包括紧凑网络和知识蒸储等。图16.模型小型化的主要实现

44、路径类别技术描述压缩参数剪枝设计关于参数重要性的评价准则，基于该准则判断网络参数的重要程度，删除参数冗余参数参数量化将网络参数从32位全精度浮点数量化到更低位数低秩分解将高维参数向量降维分解为稀疏的低维向量参数共享利用结构化矩阵或聚类方法映射网络内部参数压缩紧凑网络从卷积核、特殊层和网络结构3个级别设计新型轻量网络结构知识蒸谯将较大的教师模型的信息提炼到较小的学生模型混合混合方式前几种方法的结合方式数据来源：深度学习模型压缩与加速综述（高啥、田育龙等）、财通证券研究所参数量化是目前降低模型推理成本的主流技术路径。计算量（FLOPS）对应的是时间复杂度，主要关注网络执行时间的长短，即衡量每秒浮点运算次数；参数量（ParamS）对应的是空间复杂度，主要关注显存占用量，即衡量网络模型中需要训练的参数总数。当前，参数量化是目前降低模型推理成本的主流技术路径，其核心思想是通过将浮点计算转成低比特定点计算以降低数据精度，有效降低模型计算强度、参数大小和内存消耗，即以柄牲部分模型性能为代价提升计算效率。YufanLiU等人的研究结果显示，当模型的FLoPS数量修剪为原来的50%左右时，模型弼牲的准确度约10%:即当接受约10%的性能拈牲时，可以节约50%左右的算力成本。图17.参数量化能够显著降低大模型的推理成本ModelAivh