通过NPU和异构计算开启终端侧生成式AI.docx
《通过NPU和异构计算开启终端侧生成式AI.docx》由会员分享,可在线阅读,更多相关《通过NPU和异构计算开启终端侧生成式AI.docx(19页珍藏版)》请在课桌文档上搜索。
1、 Qulco 2024年3月 通过NPU和异构计算开启终端侧生成式Al 不二设宴通口/产入艮麻人搭水工三床H字公助的产.目录 总结1 2 3 4 5 6 7 8 9 10 1 摘要 KMAl变W1.RUBflMAIAHMR求在有多样化要求和计算求的垂我fWfll要专为AI*M酬的全新计H架构.这先需要一个!向 CAI全新设计的神经网络处*NPU),喇用异构处理卷施合,比如中央处IUKCPU 月Dlg形处MGPU)o 通过结合 NPU 使用合透的处理国,异构计费能第实现佳应用性能、能效和电池续航,Il 能全新增密的生成式 Al 体验。NPU 专为实现低功耗加速 Al 推理而全新打造,并随器新 A
2、l 用例、模型和需求的发展不断演进。优秀的 NPU设计能够提供正确的设计选择,与 Al 行业方向保持高度一致。高通正在助力让智能计算无处不在。业界领先的高通 HeXagon-NPU 面向以低功耗实现持续和定的高性能Al 推理而设计。高通 NPU 的差异化优势在于系统圾解决方案、定制设计和快速创新。通过定制设计 NPU以及控制指令集架构(ISA),高通能第快速进行设计演进和扩联,以解决瓶颈问题并优化性福 HexoNpU是高通业界领先的异构计时架构一一高通 Al 引擎中的关域处理器,高通 AI 引擎还包括高通 AdrenoGPU高通 KrycT 或高通 OryOn.CPU、高通传感器中枢和内存子系
3、统。这些处理器为实现协同工作而设计,能够在终端侧快速且高效地运行 Al 应用。我们在 Al 基准消试和实际生成式 Al 应用方面的行业领先性能就是例通 我们还专注于在全球搭载高通和骁龙平台的数十亿终 J*设备上实现便断发和部署,斌能开发者 Q 利用 3 通Al 软件栈(QuolcomEAJSSck),开发者可在高通硬件上创建、优化和部署 Al 应用,一次编写即可实现在不同产品和细分领域采用高通芯片组解决方案迸行部工高通技术公旬正在蛾能终端催生成式 Al 的规模化犷展。2 处理器集成于SoC中的诸多优势 在不 Bfi 增长的用户需求、全新应用和终类以及技术进步的驱动下,计算架构正在不断演进。最初
4、,中央处理裁(CPU)就能够完成大部分处理,但随着计算需求增长,对全新处理器和加速器的需求出现O例如,早期智靛手机系统由 CPU 和环线 CPU 分布的分立芯片组成,用于 2D 图形、音籁、图像信号处理、螺寓调制解调器和 GPS 等处理。隔着时间推移,这些芯片的功能已经集 QW 为系统级芯片(SOC)的弟个芯片体(DlD 中。例如,现代智能手机、PC 和汽车 SOC 已集成多种处理器,如中央处理器(CPU)X 图形处理器(GPU)和神鲤网络处理 H(NPU)。m的这冷集成具有诏多优劣,包括改CHt 值住能、能效、单位面积住能、芯片尺寸和成本。例如,在智能手机或笔记本电脑内安装分立的 GpU 或
5、 NPU 会占用更多电路板空间,需要使用更多能源,从而影响工业设计和电池尺寸。此外,输入闻出引脚间的数据传输也将增多,将导致性能降低、能耗增加,以及采用更大电路板带来的额外成本和更低僦享内存效率。对于智能手机、笔记本电脑和其他 H 要轻巧工业设计,具有产格功率和畋榭 K 和好 J 便携式终端,集成更为必 ffo 01:三 feSCfffDCti FtKaIHMHf”螺单位再91性能、工*计和林 3 生成式Al需要多样化的处理器 谈到 A1.集成专用处理器并不新鲜。智能手机 SoC 自多年前就开始利用 NPU 改善日常用户体验,时 Il 晶色影像和音频,以及增强的连接和安全。不同之处在于,生成式
6、 Al 用例需求在有着多样化要求和计需求的垂直领域不断增加。这丝用例可分为三类:1.按 IB 型用例由用户触发,需要立即响应,包括照片/视频拍握、图像生成/编辑、代码生成、录音转录涌要和文本(电子邮件、文档等)创作/摘要 G 这包括用户用手机输入文字创作自定义图像、在 PC 上生成会议摘要,或在开车时用语的询最近的加油站。2.持续型用例运行时间较长,包括语音识别、游戏和视舞的幽分册率、视频通话的音频/视频处理以及实时 tn 译。这包括用户在海外出差时使用手机作为实时对曲译器,以及在 PC 上玩游戏时逐帧运行超级分辨率。3.泛在型用例在后台持续运行,包括始终开启的预测性 Al 助手、基于情境感知
7、的 Al 个性化和高级文本自动填电例好机可以根据用户的对话内容自动建议与同事的会议、PC 端的学习 Mi 导助手则靛够根据用户的答题情况实时调整学习资凤 这些 Al 用例面临两大共同的关键挑 At 第一,在功耗和散热受限的终端上使用通用 CPU 和 GPU 版务平台的不同箫求,璀以满足这些 Al 用例产苛且多样化的计算需求。第二,这些 Al 用例在不断演进,在功能完全固定的硬件上部詈这些用例不切实际。因此,支持处理多样性的异构计将架构能够发挥每个处理器的优势,例如以 Al 为中心定制设计的 NPU,以及 CpU 和 GPU)短个处理器 IB 长不同的任务:CPUIfi 长顺序控制和即时性,GP
8、U 适合并行数据流处理,NPUIS 长标、向和张数学运算,可用于核心 Al 工作负 S1.CPU 和 GpU 是通用处理器。它们为艮活性而设计,非常易于编程,“本职工作”是负责运行操作系统、游戏和其他应用等。而这些“本职工作”同时也会髓时限 JWteil 运行 Al 工作负就的可用容 NPU 专为 Al 打造,AI 就是它的本职工作”。NPU 降低部分易编程性以实现更高的峰值性能、能效和面积效率,从而运行机器学习所需的大窠法、加法和其他运算。通过使用合适的处理器,异构计算能第实现最佳应用性能.能效和电池续航,能全新增强的生成式Al体%4 NPU入门 NPU专为实现以低功耗加速AI推理而全新打造
9、,并随着新Al用例、模型和需求的发展不断演逐对整体 SOC 系统设计、内存访问模式和其他处理繇构运行 Al 工作负费时的瓶颈迸行的分析会深刻影响 NPU 设计。这些 Al 工作负栽主瞿包括由标、向量和张数学组成的神经网络层计算,以及 Hl 后的非线性激活函数。在 2015 年,早期的 NPU 面向音频和语音 Al 用惭设计,这些用例基于简单卷积神经网络(CNN)并且主要需要标 3 和向数学运算。从 2016 年开始,拍照和视频 Al 用例大受欢迎,出现了基于 Transformer循环神经网络(RNN)、长短期记忆网络(1.STMM 更高维度的卷积神经网络(CNN)等更复杂的全新横型。这些工作
10、负裁需要大张数学运分,因此 NpU 增加了张星加速鬻和卷积加速,让处理效率大幅提升。有了面向张星乘法的大共享内存配置和专用硬件,不仅能够显著提高性能,而且可以降低内存带宽占用和能耗O例如,一个 NXN 矩阵和另一个 NXN 矩阵相乘,需要读取 ZN2 个值并进行 22 次运食(单个柒法和加法)a 在张加速器中,每次内存访问的计算操作比率为 N:1,而对于标和向量加速器,这一比率要小得多。在 2023 年,大语言模型(1.1.M比如 1.lamQ27B,和大视觉模型(1.VM)一比如 StabieDiffUSionlS能的生成式 Al 使得典型模里的大,J 嘤升超过了一个数级。除计 Il 需求之
11、外,还需要重点考虑内存和系统设计,通过Jt少内存数据传Ia以提高性能和能效。未期计将会出现对更大规模模型和多模态模型的需求。02WW.不得JWa I 随Al持城快速演进,必很在住能、功耗、效率、可想程性和面积之间进行权懦取 含。一个专用的定制化设计NPU能够做出正确的选择,与AI行业方向保持高度一致。5 高通.NPU:以低功耗实现持久稳定的高性能Al 经过多年研发,高通 HeXaQonNPU 不断演进,能够满足快速变化的 Al 需求。2007 年,首款 HeXgOnDSP在骁龙平台上正式亮相一一 DSP 控制和标量架构是高通未来多代 NPU 的用叱。2015 年,骁加 820 处理器正式推出,
12、集成苜个高通 AI 引军,支持成像、音频和传感器运费,2018 年,高通在骁龙 B55 中为 HeXogOrlNPU 增加了 HeXQgOn 张量加速线。2019 年,高通在骁龙 865 上扩国了终端例 Al 用例,包括 AI 成像、Al 视频、Al 语音和始终在线的感知功能。as*2015年发布的登龙8203次WiiA/引I1.2020 年,高通凭借 HeXOgonNPU 变 35 性的架构更新,实现了重要里程碑。我们融合标、向量和张加速器,带来了更佳性能和能效,同时还为加速器打造了专用大共享内存,让共享和迁移数据更加高效O合AliMtM构为育出凄的NPU架构定了整实tto 2022 年,第
13、二代骁龙 8 中的 HeXOgonNPU 引入了众多重要技术提升。专用电源传输轨施够根据工作负基动态适配电源供应。格切片推理利用 HeXaQOnNPU 的标加速能力,将神经网络分割成多个能够独立执行的微切片,消除了高达 K)余层的内存占用,能够最大化利用 HeXOQ8NPU 中的标、向和张加速器并降低功耗 O 本地 4 位整数(INT3 运算支持旋塔提升能效和内存带宽效率,同时将 INT4 层和神经网络的张星加速吞吐提高一倍。TrQnSfOrnWf 网络加速大幅加快了应用于生成式 Al 的多头注意力机制的推理速度,在使用 MobiIeBERT 模型的特定用例中能芾来高达 4.35 倍的惊人 A
14、l 性能提升。其他特殊硬件包括改进的分组卷积、激活函数加速和张加速器住能。但矍曲_中的 HeXgonNPU是高通面向生成式 Al最新、也是目前最好的设计,为持续 Al 推理带来98%性能提升和 4%籍效提升、它包括了跨整个 NPU 的 1架构升级 O 微切片推理迸一步升级,以支持更高效的生成式 Al 处理,并降低内存带宽占用。此外,HeXaaOn 张星加速甥增加了独立的电源传输轨道,让需要不同标、向和张星处理规模的 Al 横里能婚实现最高性能和效率。大共享内存的带宽也堵加了一他基于以上提升和INT4件如速,H 更浮渣碎 NPUJ成为面向终储催生成式Al大模型推理的领先处理器。,与前代平台相比,
15、加速JS专用电源 高通 HexagonNPU 更大带宽进入 2倍带克 张加速88 更高主算 图4.奈二二尸彳8的HemgOnNPU开缭以幽IEjbMt先触 高通NPU的差异化优势在于系统级解决方案、定制设计和快速创新。高通的系统级解决方案考个处“m构、SoCKttKWlDttfHMHftlli以打造隹Al助Xo要在增加或修改硬件方面做出恰当的权衡和决策,需要发现当前和潸在的瓶颈。通过跨应用、神经网络模型、鼻法、软件和硬件的全栈 Al 研究与优化,高通能尊做到这一点 O 由于靛够定制设计 NPU 并控制旨令集架构(ISA),高通架构师能筋快速进行设计演进和扩展以解决瓶颈问融。这一迭代改迸和反馈循
16、环,使我们能够基于 Ia 新神经网络架构持续快速增强高通 NPU 和高通 Al 软件栈。基于高通的自主 Al 研究以及与广大 Al 社区的合作,我们与 AI 横型的友展保持同步。高通具有开展基础性Al 研究以支持全栈终端 mAl 开发的独特豌力,可 Kl 能产品快速上市,并困绕终端偶生成式 Al 等关獴应用优化 NPU 部署。相应地,高通 NPU 历经多代演进,利用大技术成袋百除瓶酸。例如,第三代骚龙 8 的诸多 NPU 架构升级施够帮助加速生成式 Al 大模型。内存带宽是大语言模型 Sken 生成的瓶颈,这意味居其性能去现更受限于内存带宽而非处理能力。因此,我们专注于提高内存带宽效率。第三代
17、骁企 8 还支持业界最快的内存配置之一:4.8GHZ1.PDDR5x,支持 77GBs 带宽,能够满足生成式 Al 用例日益增长的内存需求。从 DSP 架构入手打造 NPU 是正确的选择,可以改善可编程性,并能够紧密控制用于 Al 处理的标呈、向量和张运算 Q 高通优化标、向星和张加速的设计方案结合本地共享大内存、专用供电系统和其他硬件加速,让我们的解决方案独嗣一帜。KilNpU 能第模仿最主流筮鱼的神经网络层和运算,比如卷积、全连接层、TtaMIlMMl 以及主流激活的数,以低功耗实现持续稳定的高性能表现。6 异构计算:利用全部处理器支持生成式Al 适合终端假执行的生成式 Al 横型日益复杂
18、,参数规模也在不断提升,从 K)亿参数到 100 亿,其至 700 亿升级的傩切片推理 88架构升级 峰值性掂内椁 参数。其多模态趋势日益增强,这意味着模型能够接受多种输入形式-比如文本、语音或图像,并生成多种输出结果O 此外,许多用例需要同时运行多个模型。例如,个人助手应用采用语音输入输出,这需要运行一个支持语音生成文本的自动语音识别(ASR)横型、一个支持文本生成文本的大语亳模型、和一个作为语音输出的文本生成语音(TTS)横型。生 MAI 工作负的短余性、并覆性和多样 1!MlMsec 中所存处事的能力 佳的解决方案鬟求:1.若处理器和处理器内核扩展生成式 Al 处理 2 将生成式 Al
19、模型和用例映射至一个或多个处理器及内核 选择合适的处理器取决于众多因素,包括用例、终端类型、终端片级、开发时间、关 Sr 性能指标(KPD 和开发者的技术专长。制定决策需要在众多因素之间进行权衡,针对不同用例的 KPl 目 标可能是功耗、性能、时延或可获取性。例如,原始设苗制造商(OEM)在面向跨品类和层级的多种终端开发应用时,需要根据 SOC 规格、JB 终产品功能、开发流易度、成本和应用跨终层级的适度降级等因素,选择运行 Al 模型的 Sl 佳处理器 C 正如前述,大多数生成式 Al 用例可分类为按需型、持续型或泛在型用例。按需型应用的关域性能指标是时延,因为用户不想等待。这些应用使用“醴
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 通过 NPU 计算 开启 终端 生成 AI
链接地址:https://www.desk33.com/p-1416803.html