【亿欧智库】2023中国智驾大模型应用研究报告正式版.docx

上传人：夺命阿水

文档编号：1218284

上传时间：2024-04-02

格式：DOCX

页数：95

大小：1.31MB

《【亿欧智库】2023中国智驾大模型应用研究报告正式版.docx》由会员分享，可在线阅读，更多相关《【亿欧智库】2023中国智驾大模型应用研究报告正式版.docx（95页珍藏版）》请在课桌文档上搜索。

1、卬国智能电前汽车”,CHINASMARTELECTRICVEHICLEmSERIESREPORT2023中国智驾大模型应用研究报告一二】幕了二：,一一二.1亿欧智库CopyrightreservedtoEOIntelligence,October2023(127607)(127607)强张库丫忆欧智库(127607)亿欧智库:亿政智库(127607)强张智欧MIMicscwsrv*K2 ISA* mMT亿(127607)强张智欧亿(127607)强张智欧亿开始在自动驾驶行业内盛行起来。至2023年，智驾相关大模型开始大量出现，如华为盘古大模型、百度文心大模型、毫末DriVeGPT等。基于上述背

2、景,为了更深入地了解智驾大模型的定义、技术应用现状、产业竞争格局以及遇到的挑战等，亿欧智库撰写了2023中国智驾大模型应用研究报告，并针对中国智驾大模型应用进行深入地研究和分析。2023中国智驾大模型应用研究报告核心观点“力(127607)(127607)(127607)目前，智驾大模型没有一个公允定义，并且产学研不同领域的专家对智驾大模型的定义也不一样，但结合各专家的观点来看，智驾大模型具备多模态输入、自监督学强强强一，一-atB库库库GBBtUJI.IW-SMW%-rE.MRM*MMtMtft.SlffMlMVSItlMMUI*V 欧欧欧亿亿亿练为车辆提供更有效的感知融合效果与实时建图方案

3、，最终让车端实现与人类司机行为和思维一致的感知、预测、规划等能力。智驾大模型最重要的应用是数据闭环，相比于传统数据闭环而言，当前的数据闭环对自动驾驶系统赋能最多的主要是数据挖掘、自动标注、模型训练、仿真测试四个应用方向。从感知侧的数据采集开始，会先根据筛选器的设置来进行数据挖掘，随后通过自动化标注来对数据打标签，再对原模型反复训练并经过仿真测试后，最后对车端/模型进行优化，在经过反复地不断迭代循环后，使得整个数据闭环能力能够不断提升。对于已布局或正将布局的企业，智驾大模型玩家主要可分为四类，其中新势力主机厂以自研为主，而传统主机厂持有保守观望的态度；科技企业凭借强大的Al技术背景和资本实力

4、，构建了以云服务为基础的垂直服务体系；Tierl以自研基于BEV感知的垂域大模型为主；芯片企业主要是优化芯片的开发生态，以便客户能在自家芯片(127607)(127607)(127607)遑强富XXvk9av*rzuMa.彳乙彳乙库曾R库智2023年，智驾相关大模型开始大量出现，如华为盘古大模型、百度文心大模型、毫末DriVeGPT等。亿欧智库：Al大模型发展历程性能(参数、层媾)语言类大模型CV类大模型通用类大模型(127607)强X-张库智得相关大楼5!智欧亿基于这!则的少M库3欧Z195020062014强(127607)富-张JSs导入IB/亿开发期GANGoogleOpenAIGPT

5、2,二工、NVDli.qpM小、G2)百度文心大模型阿里巴巴M6毫末DriveGPTUniADBEV+Transformer(127607)ThinkTwice微软FlorenceDALL强-E2202120222023时间8U77数据来源：亿欧智库20201.2.1数据端：基于BEV+Transformer的融合架构f可使大规模多模态数据更好地融合了亿欧智库（127607）（127607）（127607）从多传感器的融合趋势来看,目标级融合（后融合）是当前行业内主流的融合方案,虽然算法开发难度较低，但融合精度较低、关键信息易缺失，不适合未来融合趋势的发展。数据级融合（前融合）是行业发展的目标

6、，但技术壁垒高，短期内方案落地较难。所以，在不丢失关健信息的基础上，富富富张张张库存年智智智欧欧欧况。相反，基于BEV+Transformer的特征级融合方案，可以通过注意力机制提取目标物特征，并在鸟瞰图下脑补出完整的目标物信息,有利于提高整体感知融合精度。亿欧智库：多传感器的融合趋势变化亿欧智库：基于BEV+TranSformer架构的特征级感知融合方案优势目标级融合（后融合）优势：算法难度低、各传感器之间解耦性强劣势：关键信息容易丢失、整体融合精度低目标级融合方案采用的算法仍然是基于规则的运算，虽然方案整体的算法开发难度较低，但有效信息容息缺失.SS引出感知系统读报.鸿报等同SLa(127

7、607*1E.MfiMW劣势：算力消耗较高、时空同步难、运动*联误差大A数据级融合方案目前在行业内极少被使用,整体技术难度较高，在模型开发层面存在较多的棉霞特征级融合（中融合）之间融合效果较好gl公方MnMtt行*.优势：数据损失少、目标特征级信息使得不同传感器(127607现在5个摄像头（共8颗摄像头）中，但是每个摄像头可能只露出了卡车部分车体。对于传统规则算法（比如卡尔曼滤波），算法只会在出现卡车车体的摄像头内进行识别检测，强X张庠欧亿遮挡区域的目标，提高识别与融合精度。车轮、；瞬、车轮、油箱、窗户、车身、Transformer烟囱、窗户等烟囱、窗户等触机等融合效果好，容车身、轮子等特征级

8、融合（中融合）特斯拉在2021年的AIDAY,展示过一个大型卡车路过自车的场景，在某个时刻卡车同时出来源：亿欧智库高价值数据的比例低高价值数据通常指的是corner case (即长尾场景数据)，随着L2级以上的自动驾驶功能不断演进，越来越多的corner case会被挖掘出来，从而转换为common case,但是，通过采集车收集回来的数据，由于数据最有限，使得ComerCaSe的比例会越来越低.(127607)b各类型数据的需求同步难Q27607)强强成熟导致了标注仍需依赖天工签:1/L高成本麻诉、当前的演业的取蠢处正(存在大的手M工作比例,Ka斓标注环节,防标注肾法的不W欧K1.2

9、.1数据端：智驾大模型具备数据闭环的能力，解决主机厂在数据处理层面的痛点亿政智库(127607)(127607)(127607)自动驾驶产业在数据处理层面,面临着低效蔚口高成本的双重问题，比如cornercase的挖掘效率低、自动化数据处理程度低、数据标注和存储成本高等，这些因素阻碍了自动驾驶技术迈向高阶自动驾驶。然而，数据是驱动自动驾驶算法迭代的必要属性，能够利用好数据的公司，才可能进入K寓富nMrwrL0L2:用户期待系统能力，系统被认为是不安全的IaL4L5:用户期待=系统能力，系统被认为是安全的：、:LUULIWI人的接程181安全感对不规则障碍物的感知能力差强基于规则的算法模型I别与

10、融合精度低车道拓扑结构识别难基于AI的fr=WUA提取多践猛蝠皿3加融合精度建立3D鸟瞰图空间，增强拓扑信息7)增加时序信息，提升未知物体感知效地图采集成本高地图更新频率慢、鲜度低合规要求高II实时建立局部拓扑地图采用SDMaP或者众包地图仅采集系统所需的交通信息驶系统驾驶员自.用户期待系统能力力不安全用户期待=系统能安全实现L3-L5高阶自动驾驶功能将面对较高的场景复杂性动态道路信息承担大部分驾驶工作(1276(富张/更多的交通参与者：大小货车、行人、电动自行车、清扫车等no-7c/更复杂的交通规则：不同规则的红绿灯、车道（1276线、环岛等富,张R欧-数据来源：朱西产教授公开演讲、亿欧智库

11、；ODD:OperationalDesignDomain（运行设计域）解决高阶自动驾驶功能突破的关键，是提高对周围事物的理解，以及对复杂场景的处理能力，尤其是针对感知和定位方面遇到的问题。智驾大模型将凭借端到端的自学习和环境适应能力，成为实现高阶智驾功能的关键(127607)(127607)(127607)亿政智库13.1区别于通用类大模型，智驾大模型的部署难度高、数据维度广、模型设计复杂目前智驾大模型没有一个公允定义，并且产学研不同专家对智驾大模型的定义也不一样，但结合产学研专家的观点来看，智驾大模型具备多模态输入、自监督学习、端到端学习范式以及大规模参数的特征。但是,相比于通用类大模型，智

12、驾大模型的主要差异在于：部署难度高、数据维度广以库亿亿亿张用类大模型解决所有自动驾驶的工程化问题，而是需要一个更系统的部署方式。亿欧智库：产学研不同角度对智驾大模型的定义A：当二个模型在多模态预训练领域有一定突破从产学研角度的不同定义后，它既能处理文字信息，也能处理图片信息,同时也能对一些自动驾驶模型做出一点微调，这类模型可以称之为自动驾驶大模型。一，张耨欧从数JK的度来看.“0型可帔就是只Vf一冲甥技芟型.比如视觉图像如防自化e三s触-三s三t三三三ii三涯-而专家B:自动驾驶大模型一方面需要樗参数量达到至少IOB到IoOB的规模，另一方面预训练数据需要达到500万至1000万帧的图像.个任

13、务，最终形成一个基于TranSfOrmer网络架构的端到端的模型。专家D:自动驾驶大模型是在云端部署文本单模态通用大型语言模型或多模态通用类语言大模型，在边缘端部署垂域BEV多模态大模型，最后在移动端实现局部自主。数据来源：专家访谈、亿欧智库.亿一(127607)专家E：(127607)亿欧智库：智驾大模型的特征及差异多模态输入：自动驾驶大模型通常接受厂-一多种模态的输入：包括图像，T到表器数一：据、文本等,这使得模型能够充分利用不同类型的数据，提升感知和决策的准确性.!强智驾大模型的特征自发匍学习：口动雪姜大模咖常来用欧日空他习的方式汨行U塔,利用大n亿cKt在SeMWeHKllS.sww签

14、的数据上进行微调.这种方式可以大幅减少对标注数据的依赖。端到端学习范式：自动驾驶大模型通常采用端到端的学习方式，将所有感知数据进行统一的输入和输出，通过一个统一的模型进行学习和推理，从而避免多个模块之间的信息传递和集成问题。A大规模参数：自动驾驶大模型的参数规，弓虽模通常达到百亿甚至千亿级别，这种大i张；HIKNNIHal三r三fJIS力和泛化能力。.库欧亿：驾大模型与通用类大模型的异部署难度高：自动驾驶大模型由于车L端算力限制.目前艮能觥嵋矮缸的大模型部署在云端，从而逐步优化;车端的/模型,最终让车端实现局部端到端的学习方式，优化自动驾驶系统不同不壬务，比如感知、决策、规i划等.数据维度广：

15、自动驾驶大模型需要处理图像数据、点云数据、文本数据、语音等多模态数据，相比于语言类NLP模空（仪针对文本姆g为主）.其数据维度更广，处理数据的难度也更高.面对上述问题，自动驾驶大模型需要具备自监督学习能力，来对大多耍态数抠进行冽惨,从而使候型能够有一定自我认知能力。模型设计复杂：自动驾驶大模型兼具了通用类大模型自上而下的学习方式，会解决不同类型系庆任务.同时,在车端横向上需要采用端到端的学习方式，将各子任务统一到一个框架内，实现更好的自动驾驶算法效果.13.2智驾大模型从多个维度赋能云边端f助力端到端自动驾驶全面落地下亿欧智库I(127607)(127607)(127607)仿真建模等工作。在

16、边端，通过垂域的BEV+TranSformer模型来完成多模态数据融合和实时建图工作。在车端，主要是先利用云端已预处理并标富富富IBMMVjeanmmrubmw*库库库哲智-彳乙彳乙彳乙欧e&的学习和分布式训练为车辆提供更有效的感知融合效果与实时建图方案，最终让车端实现与人类司机行为和思维一致的感知、预测、规划等能力。亿欧智库：大模型赋能智驾系统的流程亿欧智库：基于端到端的自动驾驶大模型(127607)城张s/避免了级联误差，去除冗余信息(127607)殂XVMfa三Hc个*W.WttTHWemMlS/智张欧亿10数据采集云端张评估仿真训练Gs欧数据亿M(数据来源：亿欧智库丫亿欧智库库帮V亿

17、(127607)(127607)1.1大模型技术发展历程1 2亿乙大懵*送合应用IE产也修国朋SC目录CONTENTS(127607)(127607)1.3如何定义智驾大模型2智驾大模型在云边端一体化的技术应用探索2.1 智驾大模型技术应用总览2.2 智驾大模型产业应用探索库智欧3.2典型玩家布局情况分析智驾大模型面临挑战与发展建议4.1 智驾大模型面I缶的挑战4.2 智驾大模型未来发展建议(127607)强2a际e欧亿2.1.1智驾大模型使得整个智驾技术栈从车端上升至边端和云端，布局更全面.也更复杂亿政智库一(127607)(127607)(127607)注、模型训练、仿真测试组成了云端的

18、主要基础功能；在平台架构层，由云服务器支持四个主要的平台工具链。百张智ItVWMQfMBYlMi能更准确地跟踪和预测强狭窄或遮挡的道路.BiFPNRegNetMain京并车和交通合流。凭借通状况.从BEV(2D)到占月全面提升BEV架构的缺点：BD,缺少高度信息，无法真手是多少.虽然BEV架1也是通过矩阵框的形式，OccupancyNetworl7解决BEV架构的问题致的网格单元(Gridcell用：该算法优势是：强实现了BEV从2_却嫄决了蚕以高度上不同立方库实时预测被遮挡物体的智/IOms内可以完而亿解决了目标检测白2.1.4车端受限于算力问题f超大参数模型将通过模型压缩和OTA的方式实现

19、终端部署亿政智库Ww.-Ki-(127607)(127607)(127607)千亿参数的模型将具备较好的涌现能力；其次，需要对模型进行充分的训练,每个参数量需要训练20个token。当前千亿规模的大模型预计需要10KKXK库库库三智智.三一ZZZ欧R过JTA的方式才能部署在车端，常见的方式包括设计更高.的网络结构、将模型的参数量变少、将模型的计算量减%,同时提高模型的精度，比如剪枝、Nas、量化以及蒸储。亿欧智库：主流模型压缩技术介绍亿欧智库：模型涌现能力与算力当量的关系通用任务性能(127607).L 张IllI欧1021031040.110当模型参数量增长超过一定阈值，模型能力表现出跃迁

20、式的提升，小样本 (127607) 学习正是智驾大携强MBfi3g -张用算力当量(PetaFlops/s-day , PD ) 参数量、算力需求、模型能力之间的关系参数量与模型能力成正比。随着智驾大模型的参数量上升，所需要训练的token数会上升，模型的泛化能力也会上升，使得整体模型的loss在平滑下降. 参数量和算力需求成正比。当智驾大模型的参数量上升后，为了保证所需的算力需求和计算效率，就需要提高车端的芯片算力，而当前市场上最高算力是英伟达的OrinX ( 254TOPS ),据了解，该算力平台乌部署现有的空,匕血BE(127607)former.(127607)96神经网络架

21、构搜索（NaS）:类似化学结构式的重构，以模型大小和推理速度为约束进行模型结构搜索，从而获得更高效的网络结构。（127607）化：类信量子级别的；S肥,神好网雌型的数一般都用ftoat32的趣g寂示,但如果将剪枝：类似化学结构式的减肥，将模型结构中对预测结果不重要的网络结构剪裁掉，使网络结构变得更加瘦身比如，在每层网络，有些神经元节点的权重非常小，对模型加载信息的影响微乎其微。如果将这些权重较小的神经元删除，则既能保证模型精度不受大影响，又能减小模型大小。匠一张M -臭检七角16生 . 附TflKt好犬M9一个小 MX0JU库智如维里冬的伏分提B,所以拿HMf 效里找近大IMi的。乜 K亿健

22、来源：公开资料、亿欧智库；*int8为运算数精度单位，Int8指8位整型数，即用8bit来表示Y整数数字;float32为32位浮点数,也称单精度浮点数15亿政智库2.2数据闭环是智驾大模型的先要条件，四大主要应用方向赋能智驾系统(127607)(127607)(127607)若要建立一套智驾大模型，就必须要先做好数据闭环，其原因是智驾大模型需要大规模多模态数据，并且对数据处理的算力需求和模型计算效率要求也较高。数据闭环并不是一个较新的概念,早期自动驾驶产业已经开始出现了数据闭环的概念，但痛点在于不高效和高成本，比如数据标注多采富富富张张张MlMM111.库库库智智智欧欧欧izizz的数据采集

23、开始，会先根据筛选器的设置来进行数据挖掘，随后通过自动化标注来对数据打标签，再对原模型反复训练并经过仿真测试后，最后对车端小模型进行优化,反复地不断迭代循环后，使得整个数据闭环能力能够不断提升。亿欧智库：自动驾驶数据闭环图示.自动驾驶数据闭环发展三阶段1.0阶段:2013-2017闭环通路初步构建自动驾驶发展初期的数据闭环较为简单，只是简单的通路构建，主要在测试车上发现向Jffl并上传，由工程师们分析错误报告，以找出问题原因，进t2.0阶段:2018-2024数据驱动闭环升级随着技术的迸步和自动驾驶等级的(127607)3.0阶段:2025-2030场景催化商业落地未来,自动驾驶频闭环将进一更

24、新升级，逐步从测试车T小规模量产一大规模量产，面向多样化场景都能够流畅、安全的赋能自动驾驶，从车、路、云多端助力自动驾驶的终极实现数据闭环的定义:(127607)通过专业测试车队和社会化量产车辆采集其行驶数据、位置轨迹、路况数据、场景数据等多种而修改代码并在下次更新后予以解决.的闭环及相应技术和服务被车企及这是传统的、简单的数据闭环，但效供应商广泛应用.率不高,多个环节需要人工辅助.O2013数据信息，处理形成数据集，经过清洗、标注等，基于智能云底座进行传输、存储等操作，结16亿政智库2.2.1 数据挖掘：实现模型冷启动依然需要数采车，挖掘长尾数据的关键是用好筛选器(127607)(12760

25、7)受制于合规和传输成本等因素，使得模型冷启动仍然需要依靠采集车来获取基础数据。随着越来越多的COrnerCaSe逐步从未知转化成“已知富.a-narvvjM.*stts库,彳Z4乙彳乙欧端的存储芯片容量有限，不可能无限的增加车端储存芯片数量，并且云端的数据储存成本也较高；其次会增加数据传输成本，量产车一般通过4G/5G的车联网技术来传输数据,单车每月需要非常高的流量成本(约4050GB),该成本将成为主机厂一项较重的负担。采集方式亿欧智库：不同自动驾驶数据采集方式的对比两种采集方式该如何选择数据采集车量产车(127607)亿器配置张智.欧模型冷启动阶段1.0选择采集车采集数据(127607)

26、一数据挖掘的关键是在数据采集时做好筛选器设置无论是采集车还是量产车，数据上传带来的流量成本非常高。摄像头、毫米波雷达、激光雷达等多种传感器数据传输方式合规员随车采集数据，以硬盘形式存储数据，并以物理搬运的模式将数据送到合规室数据规模整体规模小，但单车数据量大(127607)3打用于/算法亿(一般为摄像头)模无法达到模型基本要求.只能先通过数据采集车采集数据的方式，来获取模理冷启动的基础数据-选择量产车采集数据-富,w0c3法再获取时，将采取量库(127607)40-50GB每GB收费约1元车型的功能配置来获取。相卮十万辆车月数据流量成本高达约500万元车端轨迹偏转插件和图商密钥加密无线上传的模

27、式，传输介质为4G/5G网络整体规模大，但单车数据量小系统诊断通讯数据、智驾系统科学的场景分类根据实际业务需求，对场景库进行分类，利用(127607)W骂大噢型已训ts过的强张如何利用智驾大模型做好数据筛选器优化车端采集逻辑合理设计触发器灵活更新筛选器结价由监督预训练，利用智驾大模型来优化车端基于规则的数据采集逻辑，让筛选规则能灵活多变在设计trigger(娄:据回传触发器)层时，撩照(127607)W要程度对埼退行分强靖来源：亿欧Mind Bridge闭门研讨会、H一号组织公众号、公开资料、亿欧智库以OTA方式更新车端筛选机制，备案流程非常繁琐，可利用智驾大模型定期更新车端数据筛选相关的算子

28、172.2.2 自动标注：自动标注成为主流方向f4D标注成为未来不可或缺的技术/亿欧智库(127607)(127607)(127607)由于深度学习在整个自动驾驶产业的渗透率逐渐提升,大量的语义图像数据，使得数据标注成为了智驾系统不可获取的一部分。从人工标注到半自动,再到全自动化标注，自动标注提升了标注整体的效率和精度，能够处理更大规模的数据集，提升人机协作的能力以及适用多个应用场景。M张张_张BEV需要的真值数智智智MflnDt14aiM*M.MCAAZlMMHN.C欧KKt自动驾驶为何需要数据标注Frl系统优化：数据标注可以用于优化自动驾驶系统.通过对标注数据的分析，可以发现系统中7存在的

29、问题和缺陷，并进行优化和改进.这些改进可以让自动驾驶系统更加智能和高效，更好地满足用户的需求.提升效率：通过大量的数据标注，可以让自动驾驶系统更快地识别各种物体，提高整个自动驾驶系统的工作效率.目前，数据主要集中在感知侧,由于感知算法主要采用深度学习模型，所以需要已标注的缄。而规控侧主要采用规则模型,无需标注数据进行处理亿欧智库：地平线基于BEV感知的4D标注技术方案、特斯拉数据标注历经4个阶段，精度、效率不断提升(127607)强(127607)强张库R欧m2018年及之前2019年只有纯人工2维图像标注，人工进行3D固定程效率较低图像标注2020年采用BEV空间进行标注20M年提出占用网络方案，在4D空间中进行标注面向BEV感知的4D标注方案 4D主要是3D空间+时序通过4D重建实现点云级别或ObjeCt级别的重建，通过人工标注积累原始数据随着数据积累到一定程度，可以训练云端大模型逐步替换人工标注，可提升80%+的标注效率GT健发版从人工标注到自动化标注，自动标注带来哪些优势提高效率和准确性适用于大规模数据集提升人机协作能力自动标注可以大大提高常S1.M!AX*(127607)gg由saw大规模的数据集，处理速数据策源：地平线、专家访谈、亿自动标注可以与人工标注相结合，实现欧智库人机协作的标注方式，可以对人工标注的数据进行蛉证校对。4D*采集数据（动、静;Mtwa