AI芯片 技术发展方向及应用场景落地探讨.docx
一、Al芯片诞生和发展的背景自1956年美国达特茅斯学院首次提出人工智能(AI)的概念以来,Al技术不断获得突破和快速发展,对算力的需求也不断增加。为了满足这种需求,AI芯片不断迭代升级,目前已成为算力提升的核心基础硬件。2006年以前,Al算法尚未出现突破性进展,且Al的训练数据主要以小数据为主。因此学术界和产业界对AI的算力需求主要由CPU提供,在这个阶段AI芯片发展较慢。2006年到2016年期间,A【算法在深度学习上获得突破,同时大数据、云计算等技术在这期间高速发展,进一步促进了Al在“大数据+深度学习”模式上的快速发展,随之而来的是Al性能的提升越来越依赖于计算能力的大小。研究人员发现,相比于CPU,GPU具备并行计算特性,因此在深度学习等人工智能先进算法所需的“暴力计算”场景中更为高效。通过充分发挥GPU的优势,人工智能算法的计算效率可以大幅提升,这促使研究人员广泛采用GPU进行人工智能领域的研究和应用。2016年以后,随着Al技术的发展和商用化,Al芯片进入大发展阶段。2016年,美国谷歌旗下DeePMind团队开发的AI系统AlphaGo战胜韩国棋手李世石,引发全球AI热潮。此后,Al领域对于算力的需求不断增加。但GPU的高功耗和高价格限制了其在不同场景中的应用。为应对上述挑战,研究人员开始致力于开发定制化的AI芯片,以实现在加速AI算法运算的同时降低功耗和成本。自此,大量初创企业和传统互联网巨头纷纷涌入Al芯片领域,推动了专用AI芯片的快速发展。2022年11月,美国OPenAl公司推出AI大模型ChatGPT,引发全球Al大模型发展浪潮,这一趋势进一步加大了Al领域对算力的需求,推动了Al芯片的投资和发展。二、Al芯片发展的技术方向广义而言,Al芯片指的是专门用于处理人工智能应用中大量计算任务的模块,即面向人工智能领域的芯片均被称为AI芯片。狭义的AI芯片指的是针对人工智能算法做了特殊加速设计的芯片1,2。从技术架构来看,Al芯片主要分为图形处理器(GPU)、现场可编程门阵列(FPGA),专用集成电路(ASIC)、类脑芯片四大类。其中,GPU为通用型人工智能芯片,FPGA和ASIC是针对Al需求特征的半定制和全定制芯片,类脑芯片则是一种模仿人脑神经系统结构和功能的处理器。(一)图形处理器(GPU)。GPU最初是专门用来做图像处理的,如图像渲染、特效制作等,后因其优秀的矩阵计算能力和并发计算的架构,被广泛运用于Al领域。目前,GPU已成为Al领域最为成熟和广泛应用的通用型芯片,在数据中心、超级计算机等大型计算设施中备受青睐,在Al芯片市场中占据主导地位。在全球GPU厂商中,英伟达GPU技术一直处于领先水平,其融合了统一计算设备架构CUDA,构建起软硬件高性能计算的生态壁垒。2022年3月,英伟达在GPU技术大会(GPUTechnologyConference)上发布了基于新一代Hopper架构的高性能GPU芯片H100,其配备第四代TensorCore和TranSfOrmer引擎,与上一代产品相比,HlOO的综合技术创新可以将AI大型语言模型的速度提高30倍。(二)现场可编程门阵列(FPGA)。FPGA是一种灵活可编程的硬件平台,具备较高的计算性能和可定制性等优点,能够对AI算法进行加速和优化。在不断迭代的Al算法场景下,FPGA凭借其灵活性、低功耗和低延时的技术优点,在Al推理应用中表现出色。2022年11月,英特尔发布基于第二代英特尔HyperflexFPGA架构的AgilexFPGA芯片,其中整合引入了AI张量模块的增强型数字信号处理(DSP)功能模块,能够更好支持AI/图像/视频处理以及可执行复数计算的DSP密集型应用。(三)专用集成电路(ASIC)。ASIC是针对用户对特定电子系统的需求而设计的专用集成电路,其计算能力和计算效率可根据算法需要进行定制,是固定算法最优化设计的产物。2016年,谷歌发布ASIC芯片TPUV1,主要应用于Al推理过程。自此,ASIC克服了GPU价格昂贵、功耗高的缺点,开始逐渐应用于Al领域,成为Al芯片的重要分支。2017年5月,谷歌发布TPUv2,相比于TPUV1,TPUV2最大的特色在于它既可以用于Al训练,又可以用于Al推理。2018年5月,谷歌发布TPUV3,可实现超过100PFLOPS的处理能力,几乎是TPUV2的8倍。2022年5月,谷歌又推出TPUV4,相比于英伟达AIoo芯片,处理速度最高快1.7倍,节能效率提高1.9倍。2022年3月,中国寒武纪公司推出训推一体Al加速卡MLU370-X8,搭载双芯片四芯粒思元370,集成寒武纪MLU-Link多芯互联技术,可应用于YoLOV3、Transformer等AI训练任务中,每张加速卡可获得200GBs的通讯吞吐性能,是PCIe4.0带宽的3.1倍,可高效执行多芯多卡AI训练和分布式AI推理任务。(四)类脑芯片。类脑芯片是结合微电子技术和新型神经形态器件,模仿人脑神经系统进行设计的Al处理器,旨在突破“冯诺依曼瓶颈”,实现超低功耗和并行计算能力。类脑芯片被认为是后摩尔时代重要的发展方向之一,可能成为未来智能计算的突破口。2017年,研发出第二代异构融合类脑芯片“天机芯”,其具有高速度、高性能、低功耗的特点,制程为28纳米。相比于当时世界先进的IBM的TrUeNOrth芯片,其功能更全、灵活性和扩展性更好,密度提升20%,速度提高至少10倍,带宽提高至少100倍。2019年,基于“天机芯”研究成果的论文面向人工通用智能的异构天机芯片架构(TOWardSArtifiCialGeneralIntelligencewithHybridTianjicChipArChiteCtUre)作为封面文章登上自然(NatUre)杂志。2021年4月,英特尔发布第二代神经拟态芯片Loihi2,其集成神经元达到100万个,是上一代的7.8倍,处理速度提高10倍。三、Al芯片的发展趋势芯片的发展和升级换代一直依赖于工艺、架构和应用三个方面的推动。在应用方面,随着AI技术的深入发展和广泛应用,不同的AI应用场景正推动AI芯片向专业化方向发展,以满足特定场景对性能、功耗和成本的需求。在技术方面,随着拟态神经元、量子等技术的发展,AI芯片正不断突破传统架构、工艺对性能的束缚,在不同的技术路径上进行探索创新,呈现出多样化的发展方向。(一)Al场景和算法推动Al芯片走向专业化在Al算法和应用场景的推动下,GPU、FPGA和ASlC正呈现出以满足专业化需求为特征的发展方向。(I)GPU在处理大量并行计算任务中表现出色,且可通过加速设计更好地发挥Al潜能,但也存在功耗高、成本高等缺点。目前,GPU仍然是AI训练所需算力的主要硬件选择。(2)FPGA具有较强的计算能力、较低的试错成本和足够的灵活性,但其缺点在于价格较高、编程更杂,因此在半定制化AI场景中具备优势。(3)ASIC具有更高的处理速度和更低的能耗,并且可针对特定AI任务进行优化设计,从而在性能和能耗方面具备更好的综合素质,这使其在全定制化Al场景中表现优异。(二)类脑、量子技术推动Al芯片走向多样化随着拟态神经元、量子等前沿技术的发展,AI芯片逐渐发展出类脑、量子等多样化技术路径的新型芯片,类脑芯片更是开始走向商用化。(1)类脑芯片拥有大规模并行计算、超低功耗和超低延迟等技术潜力,这些优势使其在未来Al应用场景中扮演重要的角色。未来,类脑芯片的一个重要发展方向就是围绕AI算法构建更加高效的存算一体计算系统,如开发更加高效的芯片架构、具备更多神经元的芯片等,以不断迭代升级Al芯片的综合性能。(2)量子芯片是基于量子力学原理构建的芯片,可推动人类计算能力呈指数级增长,形成“量子优越性”。有专家认为,量子芯片有望彻底解决Al算力瓶颈的问题。未来,随着AI的广泛应用,整个社会对于Al算力的需求和耗电量将会大幅增加,而量子芯片是解决上述一系列问题的潜在方案。不过,当前量子计算机的发展还面临着如退相干等问题,导致当前量子芯片仍主要存在于实验室阶段,距离商业化较远。总的来说,类脑芯片和量子芯片作为新型芯片技术,拥有巨大的潜力,将在未来的Al和计算领域发挥重要作用,为我们带来更高效、更强大的计算能力。尽管Al芯片早已出现并在过去几年稳步向前发展,但随着ChatGPT的爆火,人工智能大模型成为时代的宠儿,Al算力变成战略资源,Al芯片市场容量的暴增成为了必然。预测显示,2024年全球Al芯片市场规模将达到670亿美元。那么,过去一年Al芯片有哪些新动态,新趋势?未来,Al芯片又有哪些新的设计和研究方向?在2023年12月的茶思屋技术专刊,从趋势分析、市场动态、学术前沿、深度解读四个维度,来盘点大模型时代Al芯片的技术创新。趋势分析四大趋势引领Al芯片技术发展华为海思EDA首席架构师黄宇表示,当前AI芯片呈现四大技术发展趋势:AI芯片设计越来越定制化,以适应特定的AI工作负载和应用。边缘AI的增长,其中AI处理发生在本地设备而不是云上,推动了适用于边缘设备部署的高效低功耗AI芯片的需求。AI芯片提供商通常与云服务提供商合作,为云上的Al服务提供优化的软硬件解决方案。数据中心越来越多地整合了AI加速器,以处理不断增长的Al计算量。市场动态微软为ChatGPT自研Al芯片Athena据外媒ThelnfOrmation报道,微软公司正在研发代号为“Athena"(雅典娜)的Al芯片,为ChatGPT等Al聊天机器人提供技术支持。该研发项目由微软CEO萨蒂亚纳德拉(SatyaNadena)牵头,专为大语言模型的训练和推理而设计。Athena目前正由一小群微软和OPenAl员工进行测试,初代芯片可能基于台积电5nm工艺。研究公司SemiAnalysis分析师称,微软每年在Athena研发投入可能在1亿美元左右,如果顺利,微软将通过Athena将每颗芯片成本降低三分之一,从而为ChatGPT发展提供重要动力。后摩智能点亮业内首颗存算一体大算力AI芯片后摩智能成功点亮首款基于SRAM的存算一体大算力AI芯片,这也是业内首款大算力存算一体Al芯片。据透露,该款芯片采用22nm工艺制程,样片算力达20ToPS,可扩展至200TOPS,计算单元能效比高达20ToPSzW“相比国际厂商12TOPSW的平均水准来说,后摩智能的此款芯片在能效比上优势明显,而且这是在不牺牲芯片灵活性的基础上做到的:该芯片不但支持市面上的主流算法,还可以支持不同客户定制自己的算子。学术前沿谷歌为TPU的可扩展性设计专用光学芯片TPUV4从一开始设计时,其目标就是极高的可扩展性,可以有数千个芯片同时加速,从而实现一个为了机器学习模型训练而设计的超级计算机。在谷歌的设计中,超级计算机的拓扑结构为:将4x4x4(64)个TPUv4芯片互联在一起形成一个立方体结构(cube),然后再把4x4x4这样的cube用连在一起形成一个总共有4096个TPUv4的超级计算机。在这样的拓扑中,物理距离较近的TPUV4(即在同一个4x4x4CUbe中的芯片)可以用常规的电互联(例如铜绞线)方法连接,但是距离较远的TPU之间(例如在CUbe之间的互联)就必须使用光互连,原因就在于在如此大规模的超级计算机中,芯片之间的数据互联在很大程度上会决定整体计算的效率。智能EDA浪潮即将来袭,ChatGPT如何助力设计芯片ChatGPT模型独有的代码生成能力极大地加速了设计芯片的速度。由传统EDA(电子设计自动化)向智能EDA的转型浪潮即将开启。IChatgPt可以在多方面代替人工芯片设计输入简洁行输入芯片设计人员只需要写出一 条PromPt就可以生成一个功 栖正确的硬杵.候选版本多样性能可调如祟对生成硬件的性能不第 满IL还可以让ChalgPt多次 生成,最终会得到多色结果.高可编程性一无代码编程整个过程不用写一行代码, 只用写7句话.耗时也不过 是5min以内.给码速度就提 高3个数级左右.提供信息编写模块文档Chato6生成的芯片Ifi块会在下面自动生成对应的*1人0出规藩和侵件功能分析,M少程你员可文档的时间.ChatGPT将为芯片行业提供足够的可复用代码,从而对芯片设计流程带来的改变。ChatGPT极大地驱动了智能EDA技术的发展,甚至能够替代一部分EDA前端的工作。ChatGPT对于支持EDA后端优化工作的价值尚不显著,但是它将创造一些新的岗位,比如模型提示工程师,错误修正工程师等。超低功耗AI芯片可为神经脉冲网络充电孟买理工学院的UdayanGanguly教授和他的团队合作创造了一种神经脉冲网络(SNN),这种网络可依赖于一种新的、紧凑的电流源BTBT(band-to-band-tunnelingcurrent)来为电容器充电。在BTBT中,量子隧穿电流以极低的电流使电容器充电,这意味着所需的能量更少。BTBT方法还省去了用较大电容来存储大量的电流,为芯片上更小的电容铺平了道路,从而节省了空间。上图为脉冲神经网络(SNN)同时,研究人员宣布了一种新的低功耗AI芯片,它可以实现所谓的脉冲神经网络。与在硬件脉冲神经网络中实现的SOTAAT神经元相比,该研究在相似区域实现了5000倍的每个脉冲能量降低,并且在相似的区域和每个脉冲的能量降低了10倍。存算一体一智能驾驶Al芯片的下一个战场随着智能驾驶技术的迭代升级,智能汽车对算力的需求越来越大;并且,智能汽车作为一个边缘端设备,相比云端,对成本和功耗更为敏感。存算一体技术通过将计算功能和存储功能有机融合,可有效降低甚至消除数据频繁搬运带来的功耗问题,并且能够在不依赖于先进工艺的情况下,做出大算力芯片,能够同时兼顾能效和成本,可破解当前传统架构大算力AI芯片的所面临的一些困局,是智能驾驶场景下被业内人士迫切期待的一种高能效Al芯片架构的技术实现路径。存算一体作为一种新型计算架构,当前正处于从学术界向工业界迁移的关键时期,仍然存在一些技术开发和工程化落地层面的问题,需要相关的芯片厂商、软件工具厂商以及应用集成厂商等产业生态合作伙伴相互协作,共同构建存算一体芯片产业生态。深度解读【未来网络前沿洞察】英伟达AI芯片演进解读与推演在2023年10月的投资者会议上,英伟达展示了其全新的GPU发展蓝图。与以往两年一次的更新节奏不同,这次的路线图将演进周期缩短至一年。预计在2024年,英伟达将推出H200和B100GPU;到2025年,XlOOGPU也将面世。其AI芯片规划的战略核心是“OneArChiteCtUre”统一架构,支持在任何地方进行模型训练和部署,无论是数据中心还是边缘设备,无论是x86架构还是Arm架构。其解决方案适用于超大规模数据中心的训练任务,也可以满足企业级用户的边缘计算需求。在AI计算芯片架构方面,英伟达注重训练和推理功能的整合,侧重推理,并围绕GPU打造ARM和X86两条技术路线。NvidiaGraceCPU会跟随GPU的演进节奏并与其组合成新一代超级芯片;而其自身也可能根据市场竞争的需求组合成CPU超级芯片,实现“二打一”的差异化竞争力。Nvidia将延用SuperChip超级芯片架构,NVLink-C2C和NVLink互联技术在Nvidia未来的Al芯片架构中将持续发挥关键作用。在交换芯片方面,英伟达仍然坚持InfiniBand和Ethernet两条开放路线,瞄准不同市场,前者瞄准AlFactory,后者瞄准AIGCCloud0但其并未给出NVLink和NVSwitch自有生态的明确计划。224G代际的速度提升,可能率先NVLink和NVSwitch上落地。互联技术在未来的计算系统的扩展中起到至关重要的作用。英伟达同步布局的还有LinkX系列光电互联技术。对英伟达而言,来自GoogIe、Meta、AMD、MiCrOSOft和AmaZon等公司的竞争压力正在加大。这些公司在软件和硬件方面都在积极发展,试图挑战NVidia在该领域的主导地位,这或许是英伟达提出相对激进技术路线图的原因。总结来看,在Al计算领域,基于先进封装Die间互联的Chiplet芯粒架构无法满足AI计算领域快速增长的需求,可能面临“二世而亡”的窘境。低时延、高可靠、高密度的芯片间互联技术在未来AI计算芯片的ScaleUp算力扩展中将起到至关重要的作用;虽然未展开讨论,同样的结论也适用于面向Al集群SCaleoUt算力扩展的互联技术。224G及以上代际中,面向计算集群的互联技术也存在非常大的挑战。无论云端训练还是边缘端推理,Al都需要高能效的算力支持,而Al芯片无疑是输送算力的硬件保障。传统的通用型CPU、GPU甚至FPGA难以满足特定应用场景的Al需求,基于特定域架构(DSA)的AI芯片和深度学习加速器(DLA)应运而生,这为专门开发AI芯片的初创公司带来了发展机会,并在全球范围催生了多家Al芯片独角兽公司。然而,经过几年的喧闹后,Al应用场景的落地成为最大难题。Al芯片的设计不是简单的高性能微处理器硬件设计,而是涉及应用场景特定需求和算法的软硬件一体化设计。那么,AI芯片的技术发展未来在哪里?如何真正实现AI场景落地实施和商用呢?软硬件全栈集成处理器Al芯片是针对人工智能领域的专用芯片,主要支撑Al算法的运行,它是一种软硬件全栈集成的专用处理器。人工智能与其它应用领域有很大的不同,主要体现在如下四个方面:1.AI有着快速增长的市场需求。除了CPU和其他通用计算覆盖的市场外,Al芯片是新兴领域中需求量最大的计算处理芯片。2 .AI算法的计算量巨大。随着数据积累和更免杂算法的出现,对计算能力的需求也在快速提高。同时,实时计算进一步增加了对计算芯片响应能力的需求。3 .AI算法的并行计算特征.AI算法有大量的规则可以并行计算操作,例如像矩阵、卷积运算等这些操作里面存在大量可以并行处理的数学结构,我们可以用并行计算对其进行加速。4 .计算本身的可复用性。除了单纯的计算以外,数据计算结构上还有一个很大的特点,就是大量的数据复用是可以被挖掘的。有了数据更用,我们就可以设计更好的存储结构来优化芯片的处理效率。基于深度学习的人工智能计算有自己独特的计算特征,且计算量、数据量、带宽都非常大。传统的计算架构不具备针对性,应对起来显得力不从心。而Al芯片里的Al处理器针对AI计算需求做出了针对性的加强补充,让其具备澎湃算力、超大带宽、丰裕存储,并可让其计算方式特别适合AI计算领域的算法需求。在深度学习计算中,从顶层的软件框架、算子、设备驱动到底层的硬件Al处理器,软件的垂直整合一直深入到AI处理器的核心指令定义及架构,贯彻了自上而下的设计思路。为了达到极致性能,有些高频操作是需要在计算设备端进行的,比如大量的数据流调度、数据整形、同步、计算图流程处理等。所以系统的软硬件边界上移,深度学习软件栈的大部分操作可以直接运行在计算设备之上,这样能够大幅减少主机和端侧的同步开销和数据搬运开销,从而提供更好的性能。例如,燧原科技的通用AI训练芯片专为人工智能计算领域而设计,基于这种芯片的Al加速卡、燧原智能互联技术,以及“驭算”计算及编程平台可实现深度全栈集成,为编程人员提供针对性的加速Al计算。AI领域对AI芯片的需求是硬件加速和内嵌于硬件的特定功能,以管理人工智能/机器学习(AI/ML)任务,同时需要一整套成熟的软件和工作流工具解决方案,以使开发人员和数据科学家能够专注于他们在应用方面的创新。AI处理器也需要有完整的软件栈,以便可以轻松地管理训练、测试、精度优化和部署。此外,Al芯片也是一个计算平台,用来支撑城市管理、工业控制、自动驾驶和办公自动化等各个应用领域的计算。作为通用计算平台,AI芯片需要支持整个算力的生态,支持不同算法、不同软件应用的运行及部署,故而需要软件工具才能真正发挥出Al芯片的价值。因此在设计Al芯片时,其内部架构会针对人工智能领域的各类算法和应用作专门优化,为常见的神经网络计算设计专用的硬件计算模块,以便高效支持视觉、语音、自然语言处理和传统机器学习等智能处理任务,使之更适合AI算法和AI应用。除了硬件(处理器)本身,Al芯片的实际应用还涉及架构配套软件、开发工具等,需要考虑到主流的开发环境、用户使用习惯、不同操作系统、不同开发框架,保证软件易用性,以实现快速部署和系统集成。总之,AI芯片是一个软硬件一体的处理器,需要系统架构、软件工具和生态的支撑,才能更好的支持算法部署和应用场景落地.指令集架构VS.数据流架构AI芯片的设计架构有很多种,从底层计算机体系结构的角度来看,主要有指令集架构和数据流架构。指令集的发展相对较早,CPU、GPU及TPU的底层架构都是依托于冯诺依曼体系的指令集架构,其核心思路是将计算分为处理单元、控制单元、存储指令的指令存储器,以及存储数据的数据存储器。其中控制单元用于读取指令和数据,让处理单元完成整个计算过程。现代指令集架构引入了流水线处理、数据缓存、数据预取等多种架构创新,以不断降低由于数据和指令等待带来的计算资源闲置。但是,导致指令集架构计算空闲的核心问题并没有彻底解决,而且指令集架构不断提升的峰值算力也进一步加剧了指令集架构的闲置时间。面向特定领域的应用,数据流架构开始发挥出高性能的优势。针对Al领域的算力平台需求,数据流架构依托数据流动方式来支持计算。数据流架构不依托指令集执行次序,其数据计算和数据流动重叠,可以压缩计算资源的每一个空闲时间,突破算力性能瓶颈。与此同时,数据流架构通过动态重构数据流流水线,能够通用支持主流人工智能算法,满足计算平台的通用性要求。比如,鳗云近期发布的星空X3加速卡采用的就是定制数据流技术,其Al芯片利用率最高可达到95.4%。基于数据流架构的Al芯片可以突破指令集架构芯片的利用率局限性,在同等峰值算力前提下可提供更高的实测性能。CAISAArchitecture(CAlSA3.0架构图)无论哪种架构其实都是在引擎内部计算阵列和数据发射和存贮的组织方式,今天看来已经不是区分AI芯片架构的主要特征.AI芯片有一个非常通俗的理解,那就是大核还是小核。其区别在于,你是做一个或若干个大规模的单引擎,还是利用成百上千个小规模的引擎来提升计算的性能。数据流架构的优势就是可以省掉不同的处理模块之间的缓冲,将多种运算单元进行级联处理。是不是可以把Al运算的所有运算单元全都变成一个数据流的架构?显然这是不现实的,因为深度神经网络层级是比较深的,很难把所有的运算都变成全数据流架构。根据赛灵思的工程设计经验,可以将一些层融合在一起变成数据流的架构,当作一个单元,进而复制到多层运算。GPU、FPGA和ASlC(或DLA)的综合能效对比当前主流的AI芯片主要有GPU、FPGA和ASIC(或深度学习专用加速器DLA)。图形处理器(GPU)基于多核的特性,由大量内核组成大规模并行计算架构,再配合GPU的软件生态支持人工智能开发。凭借丰富的软件生态系统和开发工具,再加上易于部署的特点,由英伟达主导的GPU在早期的人工智能计算中得到了大量采用,直到现在仍是最为普及的AI处理器。据Imagination产品营销高级总监AndrewGrant称,GPU尤其适合Al训练或者运行计算工作负载。比如,Imagination的神经网络加速器(NNA)是专门针对乘累加(MA。功能设计的,这对于神经网络工作负载而言是必不可少的。嵌入式GPU在运行神经网络任务方面比嵌入式CPU快10-20倍,且效率更高,而NNA可以比CPU快100-200倍,在性能方面又有10倍的提升。FPGA(现场可编程门阵列)是一种半定制的电路硬件,其功能可以通过编程来修改,并行计算能力很强。可以针对不同的需求,在FPGA上实现多种硬件架构,在特定领域构建合适的加速单元来获得最优的处理效果。另外,FPGA在数据精度上是最灵活的,因为从比特级到4比特、8比特、半精度、全精度,这些都可以实现。尤其是在低比特的定点运算中,它会有更大的优势。ASlC是面向特定应用需求而定制开发的芯片,通常具有更高的性能和更低的总体功耗。但是,ASIC不能适应快速变化的AI网络模型和新的数据格式,如果没有足够大的出货量可能难以抵消高昂的开发成本。在性能表现上,针对特定领域的ASlC芯片通常具有优势。如果出货量可观,其单颗成本可做到远低于FPGA和GPUo像NNA或DLA这样的ASIC以超高效率运行Al任务为首要设计目标,要比其他替代方案快几个数量级,并且具有高能效比(TOPS/watt)。当以集群方式使用多个专用内核时,甚至可以提供高达500TOPS的运算能力。随着AI应用场景的落地,专用的ASIC芯片量产成本低、性能高、功耗低的优势会逐渐凸显出来。下表简单地比较了FPGA、GPU和ASIC架构的性能、功耗和灵活性。AI部署模式正在发生转变,它们不仅被部署于数据中心,而且越来越多地被部署在功耗和散热要求比较严格的边缘设备上。现在,每瓦功耗所提供的性能(或称为性能/功耗比)通常比简单的性能指标(ToPS)更为重要。随着Al算法的不断演进,网络模型和数据格式也在不断演化发展。GPU、FPGA和ASlC各有优缺点,因此都会在各自适合的Al应用场景找到用武之地。人工智能和5G爆发对AI芯片设计的影响AI和5G的爆发将为边缘AI芯片的应用与发展带来正向促进作用。得益于5G商用的推动,边缘计算需求增长,越来越多边缘服务器部署,人工智能在边缘侧的应用趋势也不断增强。5G大带宽、低时延的特点打破了以往由于网络带宽和速率的局限,使得对响应高计算量、亳秒级低时延的场景落地更加现实,比如车联网、智能制造、医疗等。此外,5G的到来使得边缘和数据中心之间的界限变得更加模糊,计算处理任务分配会更合理,边缘端和云端更有机地结合。而且5G传输的损耗和延迟变小,我们可以做更多的应用,对云端Al芯片的使用效率也有更大的提升。Al己经越来越多地融入我们的工作和生活,也开始创造一些真实的价值,比如通过Al对新冠疫情进行有效地控制。地平线联合创始人兼技术副总裁黄畅在采访中表示,地平线一直在思考如何在边缘做Al芯片及解决方案,以及如何让AI广泛落地。地平线最近发布了新一代AIoT边缘Al芯片平台一旭日3,其Al计算能力能够适应先进的神经网络。基于自主研发的Al专用处理器架构BPU(BrainProcessingUnit),旭日3芯片最大的亮点就是BPU优化,带来软硬协同的硬件架构。借助这一Al芯片平台,地平线将持续深化在AIOT领域的战略布局与行业场景渗透,发挥软硬结合优势,通过芯片工具链与全场景一站式解决方案赋能各个行业,更高效地落地Al应用,全面释放Al动能。AI和5G的普及也将AI芯片的应用场景扩展到工业领域。AndrewGrant列举出5G在智能工厂的用例,基于“机器人集群”方式对工业机器人进行管理。在这种方式中,指令可以从集群中心发送给机器人,也可以利用半联邦学习(Semi-federatedIeaming)方法在机器人之间传送。在使用机器人和数字享生技术的智能工厂,货物拣选、包装和运输的每个环节都将实现自动化,同时计算机视觉任务与神经网络相结合可以支持机器人去识别、拣选、分类和包装所有类型的产品。此外,可以将机器人部署在人类不想去的地方,比如不太适合人类的3D(Difficult困难、Dirty肮脏、DangerOUS危险)环境。在当前的疫情下,我们己经看到机器人和机器车深入参与到很多健康保障应用场景中,我们将越来越多地看到Al被广泛部署在医院和医疗保健领域。从数据中心到边缘设备,人工智能应用场景的激增将推动Al芯片的设计向前发展,以实现更高的能效比,并提供硬件可编程性来支持各种工作负载。由于散热和功耗的限制,能效比在边缘上至关重要,其重要性远高于在数据中心中的应用。随着人工智能被越来越多地部署在边缘位置,并与5G提供的实时处理能力相结合,市场将需要一种全新的Al芯片架构,它必须具有低功耗和可编程性。此外,它需要提供延迟极低的处理能力,并且每种设计的应用批量比以前更小。针对这些应用需求,AChrOniX开发出现场可编程且能够适应变化工作负载的Speedster7t系列FPGA芯片。据Achronix公司产品营销总监BobSiller介绍,该FPGA芯片支持数据速率高达112Gbps的高速I/O,连接到高性能处理单元就可以满足边缘应用的低延迟和高确定性处理要求。此外,其内置的高性能机器学习处理器是带有本地内存的高速算术单元,用于存储Al算法所需的系数和权重。5G和AI的发展都对算力提出了更高的需求,也对Al芯片架构和软件支持提出了越来越高的要求。更高性能、更低功耗、更小面积、更低成本永远都是芯片设计追求的目标。牛昕宇博士强调,峰值性能、功耗、芯片面积和成本这些指标除了与设计相关,更关键的影响因素是芯片采用的工艺。在同等芯片面积下,更先进的工艺明显有助于提升峰值性能和能效比,但这也同时会带来芯片开发成本的显著提升。鳏云科技采用了一条与众不同的技术路线,就是提升芯片的利用率。通过定制数据流架构把芯片利用率提升到95%甚至更高,在同样的工艺下可以给芯片带来更高的实测性能和更高的算力性价比。AI芯片在云端和边缘端的发展瓶颈在云端训练和云端推理计算领域,Al芯片发挥着巨大的加速作用。与此同时,它也面临着一些挑战。作为AI算力的主要应用场景,云端发展需要解决算力性价比与通用性问题。算力性价比决定了人工智能应用的部署成本,而算力通用性及软件生态决定着不同算法的迁移及开发成本。提升算力性价比有两个方式,一方面可以通过提升芯片峰值算力获得,这需要大量资金投入不断迭代工艺制程;另一方面可以通过提升芯片利用率获得,在同等的峰值算力下发挥更高的实测性能。对于初创企业而言,通过底层架构创新大幅拉开芯片利用率差距,从而获得产品层面的竞争优势,是突破现有巨头竞争格局下算力瓶颈的一条有效道路。云端计算芯片的算力提升时,功耗上升得非常快,容易遇到功耗墙。虽然芯片硬件规格上提供了澎湃算力,但是当被功耗墙频繁阻挡住时,客户所得算力也受限,因此能耗成为发挥芯片算力的瓶颈。燧原科技的冯闯认为,既要提高能耗比、又能够支持灵活多变的计算形式需求,这是Al芯片在发展过程中的很大挑战。在云端训练方面,单个AI芯片因为散热问题而到了天花板,业界开始采用成百上千个GPU集群进行训练,但这又出现了多机多卡的通信效率问题。而在云端推理方面,面临的是单芯片的峰值算力问题。在功耗、访存带宽以及工艺限制情况下,效率怎样才能设计到最优?这就涉及到芯片的微架构改进,包括引擎内计算架构、并行的处理架构、层次化的存储能力等。总之,对良好编程模型的支持、能耗比、算力性价比,以及灵活的计算形式支持,是针对云端AI训练的AI芯片发展路上必须要克服的瓶颈。在边缘和终端这一侧,AI芯片所面临的挑战是它们会被部署在各种各样的应用环境中。芯片供应商通常会想方设法将成本和芯片面积最小化,其实他们更应该放眼未来,将灵活性和性能构建于自己的系统级芯片(Soe)中。此外,SoC外围的一些接口和模块需要和具体的场景相结合。例如,用在工业场景的芯片是很难用到自动驾驶的,而用在监控里的芯片跟前面两种又不一样。即便在同一个垂直场景里,也需要考虑不同模块之间的任务负载均衡问题。赛灵思的单羿认为,FPGA因为有灵活可编程的优势,可以根据场景的持续需求调整这些模块之间的资源占用比例,从而达到全系统最优的效果。ADAS/自动驾驶应用场景落地Al芯片的落地意义在于依托于Al芯片,能形成有竞争力的人工智能解决方案。Al芯片的核心功能就是实现Al算法的计算加速,需要针对落地场景、算法精度、行业应用需求端到端打磨AI芯片及软件支持,深度融合AI芯片硬件及软件以支持人工智能方案落地。在ADAS/自动驾驶应用场景下,AI芯片的核心价值就是实时处理行驶道路上的人、车、物等复杂环境的感知和决策。要处理来自不同传感器(激光雷达、摄像头、亳米波雷达等)所采集的多样化信息,AI芯片必须具有超高的算力和极致效能,因为这些信息的处理需要在非常高分辨率的情况下做大量计算,才能够把环境感知到足够准确。此外,这些感知和决策是和人的安全直接相关的,所以对精度和可靠性也有极高的要求。到目前为止,在自动驾驶/ADAS场景中的AI和计算任务还都是在通用CPU/GPU上运行,而不是专用Al芯片。然而这一切将会改变,因为低功耗、高性能的嵌入式Al芯片将在ADAS所要执行的任务中带来出色表现,因为ADAS依赖于运行多个网络来高速、准确地提供数据驱动的决策。正如地平线创始人兼CEO余凯的比喻,车载AI芯片其实就是智能化汽车的数字发动机,算力就好比智能汽车的脑容量,自动驾驶每往上提升一级,所需的芯片算力就要翻一个数量级。要实现完全自动驾驶,需要在四个轮子上搭载“天河二号”级别的计算能力。以地平线己经大规模商用落地的车规级AI芯片征程2为例,它基于软硬结合的创新设计理念,可提供4TOPS等效算力,典型功耗仅2瓦;而且具有极高的算力有效性,每TOPS算力可达同等算力GPU的10倍以上。该芯片现己应用于智能辅助驾驶、高级别自动驾驶、高精建图与定位,以及智能座舱等智能驾驶场景。AI芯片遇到的技术难题在于灵活开放地匹配多样化上层应用。现在整车企业需要掌握越来越多的自主软件迭代开发能力,这时候Al芯片本身的开放易用性,完善的算法模型库,以及灵活易用性就变得非常重要。现今汽车软件的开发工作如此巨大,软件堆栈异常更杂,没有一家公司能单独完成所有软件的开发,而且主机厂都有开发差异化、个性化应用的需求。只有合作才能满足高效的迭代算法能力,把芯片算力和整体系统性方案发挥到极致。智能语音应用场景落地智能语音识别和处理应用对AI芯片的要求是低延迟,以及能够管理长/短期记忆网络(LSTM)和循环神经网络(RNN)所需的反馈回路。这意味着基于时间来接收信息,然后对其进行处理并添加含义。解包/展开(U叩ackunro11)能力、存储状态和反馈回路意味着这类神经网络通常在云端使用,而现在则越来越多地用于边缘处理。图像视频更多是使用卷积型的网络算法,这类运算其实有大量的数据复用空间。但对于语音识别而言,更多的是用RNFPM模型,这类模型更像是传统的矩阵运算,它会对外部的存储和带宽要求高一些,而数据复用的机会实际上是比较少的。在语音识别和处理的应用场景里,神经网络可能只占其中的一半,这时只用一个Al芯片是不够的,还需要关注前后处理的模块。此外,语音处理在数据精度上要求更苛刻,很难全部用8比特的定点来表达数据格式,获得足够高的准确率,所以在数据精度上像8比特、16比特甚至半精度的点都需要支持。智能视觉应用场景落地在智能视觉场景中,AI芯片可以非常好地与多种特定应用的算法协同工作。采用带有成熟软件和开发工具的Al芯片,应用开发人员在将应用算法部署到目标之前,就可以使用线下工具来对其进行优化。随着新零售、机器人、安防等应用的发展,业界也在开发软件工具来提供支持,以便可以将框架或新型神经网络方面的进展分解为多个构成要素并由AI芯片有效地运行。如何实现软硬协同,将Al芯片与特定应用的算法相结合是一个比较有挑战性的问题。以赛灵思为例,他们自己的算法团队可以不断地利用公开的数据集以及客户需求,针对像数据中心、安防、自动驾驶、机器人以及医疗这些应用场景,去做一些模型训练。以激光雷达为例,他们大概花了三个月进行密集开发,把点云的检测和分割,从算法训练到模型编译,到软件部署,再到硬件的设计,做了全流程端到端的实现。在这个过程中,他们发现之前为ADAS里面Camera所准备的GPU不能很好的满足激光雷达这个领域的应用。所以需要做很