大模型驱动的汽车行业群体智能技术白皮书.docx
目录务收MMMKt*m.*三,“,1,+仲4«,M,ee“z耨汴1«rmHftMn*fi<tM21.1RR11ftMNi1,汽*布笊,41r+*<t/,uUMUUK«0白人,的大幡蟹修吊1枝泰体,16IlMKM*UXVHV1>Al¼rmU”建,*>1) IHWtt/M»第»!*:大花。修才健6汽金的合倚H1.tMwIl除*K90<WaaHttMfr1M*U菅WK修WMaA京3工><u*a*ff三三aavaa>*tt/trS9lVHKI/蜀?聊SHJe¥)触4)I-1,”叫,不为WI曲灯雷冷耳啦IX/*"挈%”川&彳»¥!)$MC«IhtMWM7vant*nve*由11取。M鼻叶力HMMN盘¥琳4HM由S至冷M战前言1随着科技的飞速发展,汽车行业正面临着颠覆性的变革。从传统的燃油车到电动汽车,从手动驾驶到自动驾驶,从机械座舱、电子座舱到智能座舱,每一次的技术突破都在推动着汽车行业的进步。在智能化、网络化、电动化的趋势下,汽车不仅仅是一种出行工具,而是一个承载了众多创新技术的移动智能终端。在发展与变革的过程中,大语言模型和群体智能对车企在生产、销售、营销等各环节均带来前所未有的机遇和挑战,群体智能与组织李生解决方案也从纸上谈兵变为可在行业中实现推进落地。群体智能技术的发展,为汽车行业带来了新的机遇。通过多个智能体的协作,可以处理更加复杂和动态的任务,如智能交通系统的优化、车辆群的协调运行等。这不仅提高了汽车行业的运营效率,也为用户提供了更为丰富和智能的服务。此外,数字组织挛生技术的应用,为汽车行业带来了革命性的变革。通过创建数字挛生模型,企业能够在虚拟空间中模拟和分析研发、生产与营销流程,从而实现更高效的资源配置和风险管理。这项技术在产品设计、生产过程优化、以及市场策略制定等方面都显示出巨大的潜力。本白皮书全面探讨了大模型群体智能技术及其在汽车行业的应用潜力。首先,我们在第一章分析了中国汽车行业的市场现状,聚焦于消费需求的变化、供给侧的挑战以及由此产生的机遇。接着,我们在第二章深入探讨了大模型群体智能技术体系,包括大语言模型、AIAgent,群体智能和组织学生。第三章着重于分析大模型群体智能技术在汽车行业的应用价值和实践案例。最后,在第四章详细描述了汽车行业群体智能生态矩阵及其共赢逻辑,并以对未来的展望作为总结,强调了这些技术对于汽车行业转型升级的重要性。第一章战略态势:人工智能时代的汽车行业发展1.1 中国汽车行业市场现状1.1.1 中国乘用车市场需求节奏放缓但总量处于高位中国汽车行业发展近30年经历了"起步积累"、"高速增长"、"高位停滞"三个发展阶段。20世纪七八十年代,中国对轿车实行严格管控政策,年销量仅20万台,需求和供给缺年性,价格无法自由调控。尽管增长速率缓慢,但市场基数小,增长空间大。20世纪九十年代进入起步积累阶段,政策上放宽对私人车市的管控,不得通过行政和经济手段干预个人购车,价格机制逐步发挥调控作用。进入21世纪,国家鼓励轿车进入家庭,市场价格成为调控需求与供给的核心机制。21世纪前二十年,80、90后见证了中国私家车市场的爆发式增长,并在80、90后等人群中迅速普及,从2001年的236万辆井喷式增长至2017年2887.9碎。2018年维鼾始率妍为降,2020年受新融IWK冲击对整个汽车行业产生了重大影响,打击了汽车的生产和消费。2021年车市回温销量略有增长,随后两年呈现缓慢下降趋势。易车研究院在2023年车市价格战洞察报告中调研发现,汽车市场需求放缓、供给效能提升带来了2023年激烈的"价格战",T度销量同比下滑13.66%。基于汽车的商品交易属性,交易价格由供给和需求决定,这突显出当前的供需矛盾1-1。;19912021*10数据来源:全球经济指标图表1-11995年-2023年10月中国乘用车销量增长趋1.1.2 新能源市场逆势上扬虽然中国乘用车市场整体处于需求增长停滞的大环境中,但细分的新能源车市场表现越加醒目。2023年新能源汽车市场渗透率突破30%,提前实现了新能源汽车产业发展规划(2021-2035)中关于2025年新能源新车销量达到新车总销量20%的目标,已经成为我国汽车行业弯道超车的重点赛道。国家政策的扶持给新能源汽车发展带来众多有利条件,财政部、税务总局、工信部在2023年6月联合发布的关于延长和优化新能源车辆购置税减免政策的公告,将新能源汽车车辆购置税减免政策延长4年至2027年12月31日;2023年10月由科技部发布的关于支持新能源汽车产业高质量发展的若干政策实施等一系列政策的颁布,推动了新能源汽车市场繁荣发展、刺激消费需求,旨在推动汽车产业的技术研发、创新、转型和升级。数据来源:全国柒用车市场信息联席会,统计整理图表1-22018年-2023年10月中国乘用车销At增长趋势1.2 汽车市场需求侧洞察1.2.1 人口结构的变化,影响整体购车人群减少易车研究院调研发现,结婚、生子是中国老百姓的关键购车需求节点l-l2008年开始,80后的"结婚购车浪潮”是中国车市(特别是首购车用户)的主要推动力。2018年后,90后开始大规模进入车市,90后人数减少购买潜力不及80后;结合图表1-4我们发现近五年大家对结婚和生子积极性持续走低,一定程度上降低了首购车人群需求。19492022年中国人口出生Bl量势图(力人I数据来源:国家统计局(统计口径),数源整理:易车研究院(2023年车市价格战河察报告1-1图表1-3中国人口走势图表数居来源:国家统计局(统计口径),数源整理:易车研究院2023年车市价格战词家报告U-U图表1-42010年-2023年中国纽喀碘和出生人口走势图表1.2.2 首购车用户减少,再购车用户比例增加首购车用户呈现下降趋势,再购逐渐成为核心增长动力且均价有所提升,给中高端车型带来更多机会。根据易车研究院2023年家庭拥车数量洞察报告2014年至2022年首购和再购的数据,再购市场有较大的潜力空间1-2。同时根据麦肯锡2023年中国汽车消费者调研,有54%的受访者表示在再购车时考虑升级价格区间1-3,促使中高端汽车市占率的提升。2014J22BMStBaiiIlBaitftBHlIIIIIir数据来源:易车研究院(噂庭为单位)家庭拥车数量洞察报告1-2图表1-5中国乘用车首购与再购占比走势图表1.23新媒体时代用户获取信息触点多、注意力碎片化近年来消费者获取汽车资讯呈现多渠道、多触点的特点,在常态化触媒包围下,品牌主都在想方设法地抢占用户注意力。群邑联合易车发布的2023全域链路时代汽车营销变革白皮书中提到,整个用户消费旅途中涉及多达29个消费触点l-4o用户注意力从原先聚焦于汽车垂直资讯平台与汽车厂商官网,持续且不同程度地分散到各个泛娱乐类短视频平台、知识分享及社交媒体平台、搜索引擎、新闻资讯平台和综合视频平台等。厂商需依据各平台的用户画像和推送逻辑,不断向用户推送车系种草内容或竞品拦截信息抢占用户注意力。从被动获取信息到主动筛选、糅合信息,实际延长了用户从形成认知到产生购买行为的时间,用户注意力被分散的同时也增加了转化难度。因此,企业亟待信息整合,为用户提供高效精准的内容,打造品牌认知的一致性。信息来源:群邑,易车(2023全域链路时代汽车营销变革白皮书图表1-6汽车营销场景媒介触点与决策点关系图表1.3汽车市场供给侧洞察1.3.1 品牌格局呈现群雄纷争,新入局者有机会打造全新市场格局2019-2023年汽车品牌与车型迅猛增长,在新产品数目不断扩张的同时,旧有格局也悄然发生变化,给新入局者提供了发展机会,也为汽车市场注入了新的活力。快速涌入的新产品给消费者更多的选择空间,满足不同消费者多样化的需求,其中新能源品牌近年来在汽车市场上表现抢眼。(参考图表1-7、1-8)”八1j"!数据来源:各品牌官方发布渠道,统计整理图表1-8新车发布品牌中新能源车系发布总数走势图表近5年来整体市场份额波动较大,行业洗牌加速且尚未形成稳定格局,恰好是新入局玩家凭借敏锐的市场洞察和创新能力,在市场中迅速崛起的好时机。如图表1-9展示近5年中国乘用车品牌销量TOPlO中,有5家连续5年跻身前十榜单。数据来源:全国乘用车市场信息联席会,统计整理图表1-9新车发布品牌中新播源车系发布总数走势图表13.2 价格内卷带来经营利润下滑我们认为“价格战"是把双刃剑,企业可以利用价格优惠吸引消费者注意,在激烈的市场竞争中快速抢占份额,但同时也会压缩部分利润空间。从2021年-2023年9月中国乘用车市场终端优惠与终端销量走势图表,不难发现优惠幅度与销量基本呈正比。2021-2022年,中国乘用车市场每辆车的平均优惠幅度在1.5-2万元之间。2023年初由特斯拉率先打响价格战,最高降幅超过4.8万,随后众多新能源品牌和传统车企也纷纷跟进,通过降价、限时促销等方式来吸引消费者。2023年二季度末,平均每辆车的终端优惠突破了2万元,三季度末更是逼近了2.6万元,这种优惠的规模是前所未有的。2021-2023年三季度中国祟用车市场的援优与接走身*»CyCv11*Cyarc"CJCJJ*/kf3令DOvfb$卜心*"公卜>,F-u>u卜才b>u-enMMffil数据来源:易车车型库,出处:易车研究院,<2023年车市价格战洞察报告(1-1图表1-102021年-2023年前三季度中国乘用车市场终端价格与箱量走势.销量提升并不等同于企业利润提升。2023年上半年,从国内10家上市车企业对外公布的财报数据看,多数车企上半年营收、净利润均呈现上涨趋势,但也有3家公司归母净利润同比出现下滑。22Q上,全皿3上ARMRit3023±f,,闻N,f,7UTon*.rIii7MW150»0777?¼)0*43%204<0*3b2.nMit2M>l05731B;刈M75T9157112769971«71)412WUtl.;7SO6Mft2Mb/4XbNki8X)6,Blfl,.»-4M29M''U4H3lSiJYR*ilirtt4MTT40%7HM>7TO9QQ5.330IS2267?40)1,,)1.7数据来源:上市公司车企财报公开信息整理图表1-112023年上半年中国主流上市车企业财务状况2023年上半年,经销商集团受到价格战影响,亏损面积增大。降价销售新车压缩了利润空间,毛利润和号IJ率均不及22年同期表现。也有部分消费者为搭乘购置税减半的福利,在22年底前提前透支了消费需求。综合因素使得经销商经营压力进一步加大。WHal(cut)CMSIMMWWKO±W皿上年XM±皿上件“*,M6/gBAIAM2)MH7>9<2*rcM*U357«e1It<*311SltBM191SS小NIJB幡2964修Ilt11»lfe«S1001U34711last14»EXt61。,二U;92«IQOBO*W1141)3a¾Y-1*Bidiena¾0514A692Jk数据来源:经销商集团财报公开信息整理图表1-122023年上半年中国部分经销商集团利润状况13.3 直营模式成为用户运营新抓手,降本增效正当时打造行业领先的成本优势、实现一致的品牌体验持续影响用户心智,是企业经营效能提升的两个关键胜负手。易慧智能实地走访汽车销售门店发现,人力成本居高不下,引入传统工具化应用也并未带来预期的经营效能提升,此外,人员服务专业度问题及为保障品牌一致性带来了大量额外成本问题,是经销商与品牌直营店面临的普遍挑战。品牌在销售模式上,正加速从主流经销商模式到直营模式,再到混合经营模式进行积极探索,以达到降本增效的目的。经销商模式通过经销商网络销售和服务车辆,仍是当前汽车厂商的主流销售渠道。自负盈亏的经销商模式,具备覆盖性广、细分性强等特点。但也会导致恶意竞争,月艮务水平良莠不齐。官们实地走访中,经销商门店人工邀约试驾,仍是潜客孵化的主要手段。面对严苛的邀约数量、服务通话质量和转化率考核,经销商顾问在有限精力内仅能做到应付考核,对中低意向的客户基本放弃维护,导致大量潜客流失。即便专业类应用工具越来越多,但学习成本极高,多半是摆设,主机厂无法获得用户真实数据反馈,难以带来经营效益及效率提升。新势力品牌入局多采用直营模式,通过品牌APP报价/下单、设立自营交付中心,没有中间商赚差价可以有效的控制价格和利润,全链路对接终端消费者,有效保障了品牌服务的一致性,优异的线下体验对促成购车不可或缺。与用户直联的环节中,厂商可以更加准确有效的掌握消费者的第一手信息、迅速获得产品反馈,帮助企业快速进行产品迭代。特别在品牌建立初期,直营模式利于品牌形象打造、提升品牌知名度。而在发展阶段,门店建设速度跟不上下沉市场需求节奏,抢占市场份额缓慢,销量目标难以达成。且直营店多部署在核心'街区,需要极高的运营成本投入在门店建设和人员培训,无疑缩小了品牌的利润空间。基于直营模式中的实践问题,部分企业不再执着于“纯粹基因"开始对直销模式进行创新,为了最大程度提升销量向混营模式转型,引入经销商集团或代理商来提供交车和售后服务。混营模式下,品牌制定周到一致的服务和价格标准,可以杜绝经销商“偷工减料”或恶意降价。经销商的加入可以快速实现门店下沉,在激烈的竞争环境下抢占市场份额,主机厂也可以将资金投入到如核心技术研发等利润回报率更高的领域。尽管企业经营效能提升注重人才培育和强化,但总会触碰到成本和效率的天花板。因此,企业亟需在全链路运营中打造领先行业的成本优势,从而获得更大的利润空间,同时为消费者提供有竞争力的价格。把握直连用户的契机,提供高质量的标准化服务,加强用户品睥I1.'智建设。盥堂oood<i.*cJk*(?I.金.余富整包iCn«<“aR-X«<ivr01.4机遇与挑战基于汽车行业加速内卷的市场竞争和消费者需求放缓的市场背景,人工智能正在重塑汽车行业的生态,对汽车企业智能化转型而言是挑战更是机遇。全面的成本领先是未来汽车企业竞争的基础。在激烈的市场竞争中,汽车企业需要通过全面的成本领先策略来降低生产成本、提高运营效率,从而获取竞争优势。在人工智能时代,自动化和智能化生产成为主流趋势,这有助于降低汽车企业的生产成本和提高生产效率。例如,通过引入自动化生产线和智能仓储管理系统,汽车企业可以减少人力成本和库存成本,从而实现更高效的生产管理。同时,企业需持续投入大量资金进行技术研发和人才引进,关注全球产业链的变化,积极寻求与供应商和合作伙伴的协同降本机会,建立完善的AI基础设施以实现降本增效。一致的品牌体睑和个性化的品牌沟通会成为品牌心智塑造的胜负手。借助AI技术,企业可以更深入地了解消费者需求,提供个性化的品牌沟通和一致的品牌服务体验,来满足消费者对品质和服务的基本需求,从而塑造出可信赖的品牌形象。例如,根据消费者的购车习惯和偏好,为其推荐合适的车型和配置。同时,企业可以通过AI技术优化客户服务中心,提供高效、专业的咨询服务,提升用户满意度和用户粘性。然而,在保持品牌一致性的同时满足消费者的个性化需求,这需要企业具备精准的市场分析和精细的产品规划能力。此外,企业还需面对数据安全和隐私保护的挑战,确保消费者数据的安全与合规使用。数据驱动的解决方案与精细化运营突破人效天花板。随着科技的进步和消费者需求的变化,传统的以"人"为中心的运营方式已经难以适应市场发展的需求。在人工智能时代,数据成为企业的核心资产。通过对数据的收集、分析和挖掘,企业可以洞察市场趋势、优化产品设计、提升服务质量。例如,利用AI算法分析消费者行为数据,预测未来市场趋势,提前布局产品研发。同时,企业可以通过精细化运营提高人效,降低人工成本。例如,利用AI技术优化人力资源管理,实现人才的精准招聘与培养。然而,数据驱动的解决方案与精细化运营也对企业提出了新的要求。企业需构建完善的数据收集和分析体系,确保数据的准确性和完整性;企业需加强数据安全保护,防止数据泄露和被滥用。r-IaITi第一早科技突破:迈向通用人工智能的大模型群2.1 体系框架自2017年Transformer提出之后,预训练语言模型(Pre-trained1.anguageModel,P1.M)异军突起,不断刷新各类N1.P任务的性能上限。随着技术发展,大规模与训练语言模型参数数量不断快速提升,模型能力也飞速跃升,2022年底,随着ChatGPT的发布,人们广泛意识到大模型对技术和生产力带来的无限潜力,开始讨论大语言模型是否产生了智能的"涌现",研究基于大语言模型应用到生产生活领域的具体方法。在当下,大模型技术路线已在产业界达成广泛共识,但究竟它将成为类似Web3.0的技术浪潮,还是一场足以绵延至少十年的产业革命,仍是一个值得深思的问题。以大模型为核心的AGI革命是第四次重大技术变革,它可以和蒸汽革命、电力革命、信息革命相提并论,并将持续至少20到30年,深刻改变我们的世界。若干年后,整个人类社会的生产和生活将会因AGI革命的演进而发生翻天覆地的变化。如今,各行各业已清晰认识到大模型在应用中的广阔前景与价值,然而,如何才能发挥出大模型的巨大潜力并推动生产力的发展和变革?我们可以将大模型比作汽车引擎,它为汽车提供动力。然而,要制造出一辆完整的汽车,除引擎外,还需要转向系统、底盘、内饰以及其他所有必要组件。同样,要充分发挥大模型的潜力,我们还需要在这个"引擎”基础上加入一系列高级技术,如增强的记忆能力和使用工具的能力,这样才能开拓更广泛的应用领域和想象空间。而AIAgent(智能体)正是集合这些技术能力的载体。随着针对大语言模型的广泛研究,人们发现大模型目前存在"幻觉"等问题,导致在真实场景中落地困难。鉴于此,能够调用工具,进行复杂任务规划、执行的Agent技术,逐渐进入人们研究的领域。AIAgent的出现开启了一种新的交互方式。不再是被动的执行工具,它能主动感知环境并动态响应,标志着人类智能理解的主动转变。这一创新是迈向全面人工智能(AGI)的关键步骤,反映了从传统工具使用方式向智能实体的转变。陕椁并存用不同修城的汨薮取台裨不同为at的缜Al智能体帼够深入行业和场景,解决震杂任务及具体需求智能体被定义为具备六个关键维度特征:个性化设定、智力水平、情感智能、感知能力、价值观念和成长潜力。这些特征使它们能够适应多种应用场景。为使单个智能体发挥出色的能力,需要让它们相互连接并协作,以处理和完成更为复杂的任务。实际上,无论是人类社会还是自然界,群体智能的案例比比皆是。正如我们需要团队和组织将个人联合起来一样,自然界中的蜂群、蚁群和鱼群也展示出超越个体的高级智能行为。简单个体聚集成群体时,个体间交互能够使群体涌现超越个体的智能。随着研究的深入,AIAgent相互间,能够通过通信形成协作,完成单智能体无法完成的工作。结合能够自主理解、规划、执行、反思任务的AIAgent技术,群体智能的出现,大大拓展了大模型能力的上限。图表2-2当蚁穴与食物的通路上出现障碍时,蚊群能够分头探索新路径,并最终采用最短路径架构享生业务军生结合AIAgent和群体智能技术,我们提出了企业大模型落地的范式:组织李生。组织李生是一个以数字技术为核心的创新框架,它包括三个关键部分:岗位挛生、架构学生和业务挛生。岗位学生利用大模型技术创建个人的数字挛生虚拟人,这些虚拟人能模拟真人的交流方式,包括声音和表情,并具备"感性智能"。它们能够执行内容生成、基础交流、客户服务等工作。架构李生则是在数字世界中映射真实公司的组织架构,通过智能体网络技术定义智能体间的交流和逻辑。最后,业务挛生通过整合大语言模型、搜索增强技术和智能体构建等,自动执行实际业务,优化业务执行效果。这个框架特别适用于复杂的行业场景,如汽车行业,提供了一个全新的数字化工作和管理方式。岗位孳生2.2 大语言模型2.2.1 大语言模型的发展演进2.2.1.1大语言模型基本概念自2018年,以BERT和GPT为代表的预训练语言模型(P1.M)技术,大幅刷新各类自然语言处理任务的性能上限,已经成为人工智能领域的主流技术范式。预训练语言模型采用"预训练÷微调”方法,主要分为两步:1)将模型在大规模无标注数据上进行自监督训练得到预训练模型,2)将模型在下游各种自然语言处理任务上的小规模有标注数据进行微调得到适配模型。相比传统人工智能模型,预训练模型在下游应用中具有数据成本低、通用性强、综合性能好等优势。图表24预训练语言模型"预训练+微调"技术范式大语言模型(1.arge1.anguageModel,1.1.M)是指大规模预训练语言模型。2020年5月,OPenAl发布了拥有1750亿参数1.1.M模型GPT-3,能够完成文章撰写、对话问答、自动编程等复杂人工智能任务,并且仅通过少量样本的学习,就达到逼近人类的学习能力,展现出迈向通用人工智能(AGI)的可行路径。由于P1.M模型性能与模型参数、训练数据量呈现“伸缩定律"(Scaling1.aw)现象,即模型参数、训练数据规模越大模型性能越好,这激发了大语言模型研究热潮。大模型参数在2018年-2022年基本呈10倍增加趋势。国内夕隋许多有影响力的1.1.M频出。>i9,昔*K*1会rHV图表2-5更大模型更好效果2.2.1.2大语言模型发展历程图表2-6大模型发展历程图表2-6展示了由深度学习引导的本轮人工智能大潮里程碑式成果。本轮深度学习浪潮可以最早从视觉领域发展起来,2012年图灵奖得主Hinton提出AIexNet在大规模视觉识别挑战赛ImageNet评测上大幅超越现有模型,并首次在深度学习中引入GPU加速,激发了深度学习的研究热潮。2012至2016年间,视觉领域成为深度学习的主导领域,生成对抗网络GANs深度残差网络ResNet等创新技术应运而生。同时,自然语言处理领域亦有所发展,如文本词嵌入Word2Vec和Attention机制的提出,奠定了深度学习在N1.P领域的基础,尽管其在性能提升上并不显著。2017年成为转折点,Google提出的TranSfOrmer框架在机器翻译中取得显著进步,其分布式学习和强大编码能力受到广泛关注。继而,2018年Google和OPenAl基于Transformer提出了预训练语言模型BERT和GPT,显著提高了N1.P任务的性能,并展示出广泛的通用性。这标志着"预训练+微调"技术范式的开端。此后,众多预训练模型相继涌现,OPenAl以GPT-2、GPT-3,ChatGPT等系列模型为代表,持续弓I领大模型时代的;楠。2022年的GPT-3,首次将模型参数规模扩展至1750亿,展示了少样本学习和复杂任务处理的能力,显示出实现通用智能的巨大潜力,开启了大模型时代。自2018年起,N1.P预训练技术成为Al技术发展的主导力量,并逐渐渗透到计算机视觉领域,催生了DA1.1.-E2xGPT-4V等跨模态模型,进一步推动了深度学习和人工智能的发展。此次大模型浪潮中,OPenAl成为该领域的绝对的领导者,其提出了系列有影响力的大模型,特别是ChatGPT的提出,标志着大模型性能发生质变,开创了人工智能的新变革。图表2-7展示了OPenAl的系列模型发展历程。294Ml11NUJMUUGFT-IGFTJd、WGPM府代稿入无标注文ttrxai*lWc¼Tm,l?5B.KfGriMi±iMttR<.r上下幺孚8叟代康帽量有尊ex44'W«力,ffl1(NvSlM>谭誉K户GU上现力.供如SHtilGrT王峰a女今*“Nh*图表2-7OpenAJ的ChatGPT发展历程ImtrwtGMWtt<iPTaAff*K力NHJrM:t:n«E打ECUtGrrwGrr'.STAffattv)ffitv月视外,更指9«3*M力2.2.13大语言模型能力与特点大语言模型较传统人工智能模型,呈现出如下能力和特点,如图涌现能力(EmergentAbilities),随着模型计算量和训练数据量的增加,大语言模会涌现出上下文学习、指令遵循、思维链推理、交互认知等能力。这里上下文学习是指给定少量演示样本,大模型就可以参考回答用户的问题,具备了一举反三能力;指令遵循是指用户给定任务描述文本指令,大模型可以找指令要求回答问题;思维链推理旨在大模型能够给出问题解答过程,通过推理过程可以提升大模型回答准确率;交互认知是指大模型具备与工具、环境等交互完成任务的能力。图表2-9大模型涌现能力峻2-54对齐人类,大模型涌现能力,可以进与人类期望输出对齐。大模型可以与人类的需求、期望、价值观、伦理道德等进行深度对齐,通过有监督微调和人类反馈强化学习等学习人类偏好反馈,能够有效降低大模型的错误、虚假等"幻觉"内容生成,提升大模型的忠诚性、可靠性、有帮助性等,这是ChatGPT成功关键,也是目前解决大模型安全的关键技术。OPenAl团队提出了超级对齐的概念,并给出了超级对齐四年计划。图表2-10对齐学习构建数字空间和人类社会桥梁序列建模,大语言模型技术能够对任何可以被序列化的事务进行压缩和学习。大语言模型采用TranSfOrmer架构,通过将输入转化成token序列实现对输入的编码和理解。目前Transformer架构已经成为文本、视觉、语音等各种领域的大模型的核心架构,实现了对各种模态数据编码能力。在文本之外,我们可以通过序列化方法抽象、学习理解世界中的万事万物,如语言可以转化成文本序列,图像通过切分可以划分成patchtoken的序列,DNA可以以碱基为token划分成序列,Agent的工具调用可以划分成动作执行的序列,电磁波可以转化成音频序列等。在大模型中这些序列都是词元(Token)序列。任何可以被序列化的信息均可被大模型学习。树*3叫M><VH一":1;:I.HttHIQ1,«)噌"s<一图表2-11不同领域的序化建模2.2.1.4大语言模型发展趋势目前,大语言模型发展的主要趋势可以概括为以下几个方向:更大模型参数:由于大模型性能与模型参数呈现"Scaling1.aW"(扩展定律),即在充分数据训练下模型参数规模越大模型的性能越好。同时,模型参数规模越大模型的泛化性和复杂数据的编码能力也越好,而且呈现更强的涌现能力。这激发了人们对更大模型的持彼或许多超大规模缴模§蹶发布,如OPenAl的GPT-3(175B)、Google的Pa1.M(540B)、智源的“悟道2.0”(1750B)等,模型参数规模从过去的5年间,参数规模增长5000倍(2018年几亿参数规模BERT发展SI2023年万亿参数规模GPT-4)多模态大模型:多模态数据丰富无处不在,互联网90%以上是图像与音视频数据,文本不到10%。多模态协同更符合人类感知与表达方式,是机器实现类人智能重要途径。目前构建融合更多模态的大模型是当前大模型发展趋势。这一趋势是指将文本、图像、声音等多种模态的数据融合在一起,通过大模型进行处理和理解。例如,MidjoUmey和OpenAI的DA1.1.-E2能够根据文本描述生成相应的图像,而GPT-4可以根据理解图像和文本跨模态理解和生成。这类模型的发展,使得Al在视觉艺术、设计等领域的应用更加广泛和深入。AIforScience(大模型+X):这个方向强调将大语言模型应用于科学研究中,例如药物发现、蛋白质结构预测等。大模型在这些领域的应用,不仅能够加速数据分析和知识发现,还能够提出新的科学假设和研究方向。例如,2022年GoogleDeepMind发布基于大模型的蛋白质结构预测模型Alphafold,预测准确性已达到与人类可比水平,取得了重大突破,极大地加速了生物医学领域的研究进程。清华大学将大模型应用于生医领域提出了KV-P1.M,将生医文献数据中分子结构通过SMI1.ES表达式的形式映射到自然语言,然后对文字表达序列和生医文本进行掩码语言建模,实现了分子表达式与文本描述的桥接,在分子检索等领域任务上取得大幅提升。AIAgent:是指开发能够更加自主、智能和互动的AI智能体。这些智能体可以在多种场景下协助人类,如个人助理、客服机器人、教育辅助等。AIAgent的发展不仅在于算法本身的优化,还包括对人类行为和需求的理解,以及与人类的交互能力。例如,GPT-4等大语言能体形式(如ChatDev、AutoGPTsXAgent.AUtOGen等)B5应用升欠件开发、创作、营销、社会模拟等多种复杂场景任务处理,展示更加强大的智能水平。比尔盖茨认为AIAgent是人工智能的未来。2023年11月OPenAl开发者大会发布AIAgent开发平台GPTs,用户和开发者可以定制和商业化发布自己的Agent,将AIAgent发展推向了高潮。2.2.2大语言模型的模型架构2.2.2.1 TranSfOrmer架构Transformer架构2-1是目前大语言模型采用的主流架构2-2,其基于自注意力机制(Self-attentionMechanism)模型。其主要思想是通过自注意力机制获取输入序列的全局信息,并将这些信息通过网络层进行传递。标准的Transformer如图表2-12所示,是一个编码器-解码器架构,其编码器和解码器均由一个编码层和若干相同的Transformer模块层堆叠组成,编码器的Transformer模块层包括多头注意力层和全连接前馈网络层,这两部分通过残差连接和层归一化操作连接起来。与编码器模块相比,解码器由于需要考虑编码器输出作为背景信息进行生成,其中每个Transformer层多了一个交叉注意力层。相比于传统循环神经网络(RNN)和长短时记忆神经网络(1.STM),Transformer架构的优势在于它的并行计算能力,即不需要按照时间步顺序地进行计算。*叫JK恰人恰入(右检杵)图表2-12Transformer娜2-1Transformer架构包含编码层与Transformer模块两个核心组件:编码层,主要是将输入词序列映射到连续值向量空间进行编码,每个词编码由词嵌入和位置编码构成,由二者加和得到:1)词嵌入,在Transformer架构中,词嵌入是输入数据的第一步处理过程,它将词映射到高维空间中的向量,可以捕获词汇的语义信息,如词义和语法关系。每个词都被转化为一个固定长度的向量,然后被送入模型进行处理。2)位置编码,由于自注意力机制本身对位置信息不敏感,为了让模型能够理解序列中的顺序信息,引入了位置编码。标准Transformer架构的位置编码方式是使用正弦和余弦函数的方法。TranSfOrmer模块,通过自注意力机制获取输入序列的全局信息,并将这些信息通过网络层进行传递,包括多头注意力层和全连接前馈网络层,这两部分通过残差连接和层归一化操作连接起来,TranSfOrmer模块,由自注意力层、全连接前馈层、残差连接和层归一化操修基本单元驰:1)自注意力层,注意力(Attention)是TranSfOrmer模型的核心组成部分。它包含一个查询矩阵,一个键矩阵k和一个值矩阵,其中矩阵中的每一行对应一个词。注意力机制的计算方式:HttEon(0K,F)*SoftnmlIF此外,Transformer采用了多头自注意力(Multi-headAttention)机制,即输入序列被线性映射多次得到不同的投影矩阵。多个尺度化后点积注意力可以并行计算,并产生多个自注意力输出。多头注意力生成多个高维的注意力表示,这使得其比单头注意力具有更强的表达能力。2)全连接前馈层,在注意力层之后的全连接前馈层由两个线性变换和一个非线性激活函数组成:FFN(X)=O(XW+b,)W+b,FFN作用包括两个方面:(1)非线性激活:在每个注意力模块之后引入了非线性激活函数,这有助于增强模型的表达能力;(2)信息整合:自注意力机制允许模型在不同的位置间建立联系,而全连接前馈网络则在每个位置独立地对信息进行整合,这两者结合起来,使得模型既能捕获全局(长距离)的信息,又能在每个位置进行局部的信息整合。3)残差连接和层归一化,在每个注意力层和每个全连接前馈层之后,Transformer都应用残差连接(ResidualConnection)和层归一化(1.ayerNormalization)技术,这有助于在模型非常深时保留信息并确保模型性能。具体来说,对于某一层神经网络M),残差连接和归Tt层定义为1.ayerNorm(x+f(x)在TranSfOrmer模型被提出之后,它也衍生出了相当一部分的变体,包括在编码器和解码器中出现了不同方式的注意力机制、归一化操作、残差连接、前馈层和位置编码等。2.2.2.2 大语言模型典型架构现有的大语言模型几乎全部是以Transformer模型作为基础架构来构建的,不过它们在所采用的具体结构上通常存在差异。1.1.M根据架构主要分为三类:1)自回归语言模型,采用Transformer的编码器(Decoder),代表性模型包括OPenAl的GPT系列模型2-62-刀、Meta的1.1.aMA系列模型2-8和Google的Pa1.M系列模型2-9;2)自编码语言模型,采用TransformerEncoder作为模型架构,代表性模型BERT、RoBERTa等;3)序列到序列语言模型,采用Transformer的Encoder-Decoder整体架构,代表模型包括T5、BART