面向超万卡集群的新型智算技术白皮书.docx
《面向超万卡集群的新型智算技术白皮书.docx》由会员分享,可在线阅读,更多相关《面向超万卡集群的新型智算技术白皮书.docx(27页珍藏版)》请在课桌文档上搜索。
1、第一章:超万卡集群背景与趋势11.1 大模型驱动智能算力爆发式增长11.2 超万卡集群的建设正在提速1第二章:超万卡集群面临的挑战42.1 极致算力使用效率的挑战42.2 海量数据处理的挑战42.3 超大规模互联的挑战52.4 集群高可用和易运维挑战52.5 高能耗高密度机房设计的挑战6第三章:超万卡集群的核心设计原则和总体架构83.1 超万卡集群的核心设计原则83.2 超万卡集群的总体架构设计8第四章:超万卡集群关键技术104.1 集群高能效计算技术104.2 高性能融合存储技术144.3 大规模机间高可靠网络技术154.4 高容错高效能平台技术184.5 新型智算中心机房设计24第五章:未
2、来展望26缩略语列表28参考文献29第一章:超万卡集群背景与趋势1.1大模型驱动智能算力爆发式增长自ChatGPT面世以来,大模型步入了迅猛发展期,模型层出不穷,爆点频出,Scaling1.aW1不断得到验证,高速发展的人工智能对数字经济产生了巨大赋能作用。大模型所使用的数据量和参数规模呈现“指数级”增长,2018年BERT模型参数量仅有1.1亿,到2021年GPT-3达到了1750亿。随着MixtureofExperts(MoE)2等先进模型结构的出现,模型参数迈入万亿规模。预计在未来的2-3年,随着Al技术的进步和算力提升,Scaling1.aw还将延续,助推模型参数向十万亿进军。大模型能
3、力的不断跃迁,使得超长序列应用、文生视频、文生音频等基于多模态的应用层出不穷,大模型在各个领域均展现出了强大的智能化能力,“A1+”对生产生活带来了巨大影响。ChatG1.Nk1.1.aMA3Gemini等大模型的发布更加坚定了科技界持续摸高大模型能力天花板的决心;文生视频多模态大模型Sora的问世更加引爆了行业热点,促使业界在大模型的技术、规模和应用上不断挖掘,以期能创造下一轮爆点。Al技术的发展带动产业大规模升级的同时,也带来了对巨量算力和能源的需求。据公开信息报道,GPT-3训练所消耗的电力,相当于美国约121个家庭一整年的用电量。GPT-4拥有16个专家模型共1.8万亿参数,一次训练需
4、要在大约25000个AlOO上训练90至UloO天。大模型对底层算力、空间、水电能源产生极大消耗,对新一代智算设施的设计要求也日益严苛。更高密度的算存硬件、高性能无阻塞的网络连接以及更高并行度的通信和计算范式成为新一代智算中心的设计目标,新型智算中心(NICC,NewIntelligentComputingCenter)4相关技术将继续被推向新的高度。12超万卡集群的建设正在提速人工智能新纪元,算力为企业科技创新和转型提供有力支撑。在全球化的科技竞争格局中,领先的科技公司正积极部署千卡乃至超万卡规模的计算集群,既是展现其在人工智能、数据分析、大模型研发等前沿领域的技术实力,也向外界展示了公司对
5、未来科技趋势的深远布局。在国际舞台上,诸如GoogleMetaMicrosoft等科技巨头,正利用超万卡集群推动其在基座大模型、智能算法研发及生态服务等方面的技术创新。如Google推出超级计算机A3VirtualMaChineS,拥有26000块NvidiaHlOOGPU,同时基于自研芯片搭建TPv5p8960卡集群。Meta在2022年推出了一个拥有16,000块NvidiaAlOO的Al研究超级集群AlResearchSuperCluster,2024年初又公布2个24576块NvidiaHlOO集群,用于支持下一代生成式Al模型的训练。这些企业通过成千上万台服务器组成的集群计算优势,不
6、断优化服务架构,提升用户体验,加速新技术的市场转化与应用。在国内,通信运营商、头部互联网、大型Al研发企业、Al初创企业等均在超万卡集群的建设和使用过程中不断推动技术革新。(一)通信运营商作为国家算力基础设施建设的中坚力,利用其庞大的机房资源和配套设施优势,正加速推进超万卡集群智算中心的建设。这一举措不仅为运营商自身的大模型研发提供强大的计算支持,同时也为政府、高校和企业客户带来了前所未有的高质量智算服务。随着智算中心建设的不断深入,运营商站在连接技术创新与行业应用的关键位置,其在推动社会数字化转型和智能化升级中的引领作用日益凸显。(二)头部互联网企业作为技术创新的先锋,通过建设超万卡集群来加
7、速其在云计算、大数据分析和大模型研发等领域的突破。字节跳动、阿里巴巴、百度为代表的互联网公司在积极推进超万卡集群的建设。其中,字节跳动搭建了一个12288卡Ampere架构训练集群,研发MegaScale生产系统用于训练大语言模型5。通过集群的强大计算力,这些头部互联网公司不仅加速了自身业务的数字化转型,也为国内科技产业的发展贡献了创新动力。(三)大型Al研发企业出于对大规模模型训练和复杂算法计算的迫切需求,正在积极投建超万卡集群。这些公司作为人工智能领域的先行者,正积极投建超万卡集群以满足其大模型的计算需求。如科大讯飞,2023年建设成首个支持大模型训练的超万卡集群算力平台“飞星一号”。此类
8、集群的建立,不仅为这些企业在Al领域的深入研究提供了必须的算力支撑,也为他们在智算服务的商业应用中赢得了先机。(四)Al初创企业则更倾向于采取灵活的租用模式,利用已有的超万卡集群来支持其创新项目。这些企业为了能够实现应用和投入平衡,大多对基础设施采取灵活的租用模式,利用超万卡集群的强大计算能力来支持其创新项目。这种模式降低了初创企业的初始投资门槛,使他们能够快速获得高性能的计算资源,加速产品的研发和迭代。整体而言,无论是通信运营商、头部互联网企业、大型Al研发企业还是Al初创企业,都在通过自建或使用超万卡集群加速其在人工智能领域的技术突破和产业创新。随着超万卡集群建设的不断深入,我们预见这一趋
9、势将为整个智算产业的发展带来深远影响。第二章:超万卡集群面临的挑战当前,超万卡集群的建设仍处于起步阶段,主要依赖英伟达GPU及配套设备实现。英伟达作为全球领先的GPU供应商,其产品在大模型训练上有较大优势。得益于政策加持和应用驱动,国产Al芯片在这两年取得长足进步,但在整体性能和生态构建方面仍存在一定差距。构建一个基于国产生态体系、技术领先的超万卡集群仍面临诸多挑战。2.1极致算力使用效率的挑战大量实践表明,针对大模型分布式训练场景,集群规模的线性提升无法直接带来集群有效算力的线性提升,卡间和节点间的互联网络、软件和硬件的适配调优是追求集群极致有效算力的关键挑战。我们把集群有效算力分解为“GP
10、U利用率”和“集群线性加速比”两个重要指标,其中“GPU利用率”受限于芯片架构和制程、内存和I/O访问瓶颈、卡间互联带宽和拓扑、芯片功耗等因素,“集群线性加速比”则取决于节点间的通信能力、并行训练框架、资源调度等因素,两者的最大化发挥将最终表现为模型训练效率提升和成本降低。在超万卡集群中,需要运用系统工程方法,通过对超万卡集群网络的精细化设计、软硬件全栈整合优化,综合提升集群算力使用效率。2.2海数据处理的挑战千亿模型的训练需要对PB量级的数据集使用多种协议进行处理,未来万亿模型的训练对checkpoint的读写吞吐性能更是要求高达IOTBs,现有智算存储系统在协议处理、数据管理、吞吐性能等方
11、面面临诸多挑战:协议处理层面:传统智算存储系统按照块、文件、对象等不同协议建设分立存储池,多套不同协议存储系统之间需要来回拷贝数据,影响数据处理效率,浪费存储空间,增加运维难度;吞吐性能层面:传统智算的分布式文件存储仅支持百节点级别扩展,节点规模小,难以提供超万卡集群所需的IOTB/s以上的数据吞吐性能;数据管理层面:传统智算的数据存储需人工干预,进行冷热分类,并在高性能和普通性能存储集群之间迁移。跨系统的数据管理和迁移降低了大模型下海量数据处理效率,还会额外占用网络带宽和计算节点资源。因此,超万卡集群的存储系统需要通过协议融合、自动分级等一系列技术手段,提供高效的数据共享和处理能力,满足大模
12、型训练的需求。2.3超大规模互联的挑战模型规模扩大到万亿量级,数据的吞吐量和计算量已远远超过目前最强单机单卡能力,多机多卡互联和并行训练策略成为必须。以在超万卡集群部署1.8万亿GPT-4为例,在大模型训练过程中,每轮迭代计算都涉及前反向传播算法的计算和通信,这对超万卡集群的ScaleOut和ScaleUP网络提出极大挑战。 在ScaleOut互联层面,网络承载数据并行(DataParallel,DP)和流水线并行(PiPeIineParaIIeIjPP)流量,参数面网络带宽需达到200GbPS至400Gbps,数据面网络需要配备100GbPS带宽,保证数据读取不成为训练瓶颈。此外,参数面网络
13、还需要应对因多租户多任务并行训练通信特征不规整、上下行ECMP(EqualCostMultiPath)选路不均衡而引发的高速大象流的交换冲突和拥塞。 在Scaleup互联层面,由于MoE专家并行和张量并行(TenSOrParallel,TP)的通信无法被计算掩盖,不仅要求卡间互联带宽达到几百甚至上千GB的量级,而且应突破当前单机8卡的限制,以支持更大参数量的模型训练。此外,Scaleup互联还需要保持高频度、低时延、无阻塞的通信模式。2.4集群高可用和易运维挑战超万卡集群承载万亿模型训练意味着千万器件的满负荷高速运转,任一部件不可恢复的失效都可能导致训练中断,带来超万卡集群高可用和易运维的关键
14、挑战:千万器件维护管理难度大:超万卡集群由数千台智算服务器+数千台交换机+数千台存储设备以及数万根光纤/数万颗光模块构成,训练任务涉及千万颗元器件满负荷高速运转,基于固有的元器件硬件失效率和海量的器件规模带来硬件故障频发,涉及到的软硬件故障模式繁杂,故障管理挑战巨大;复杂系统故障定位难度大:万亿模型训练的过程是各个软硬组件精密配合的过程,一旦发生问题定界定位复杂。业界典型硬件故障定位需广2天,复杂应用类故障定位可能长达数十天。快速自动定界定位能力需要结合实际运维经验进行系统性积累和针对性持续改进。高负荷运行故障概率高:万亿大模型训练至TTA(TimeToAccuracy)一般需要一百天7X24
15、小时满负荷运行。而硬件MTBF(MeanTimeBetweenFailure)伴随集群规模的增长越来越短,万亿大模型训练作业中断频发,业界超万卡集群持续稳定运行仅数天,断点续训恢复缓慢,直接影响模型训练效率。超万卡集群急需支持更有效、更快速、影响更小的自动断点续训功能。2.5高能耗高密度机房设计的挑战超万卡集群对机房配套设施的需求相对于传统IDC云数据中心发生重大变化,对供电、承重、机房洁净度和走线架设计等有极高要求: 在供电方面,当芯片TDP设计功率上升至400700W,单柜功率从原先的78KW上升至40KW甚至60KW,集群整体功耗将攀升至数十上百MW,机房需要进行功率提升改造,并配合进行
16、散热能力提升改造; 在承重方面,由于集群规模翻番增长,为了保障单位空间的算力密度,需要引入液冷方案,确保智算芯片的高速运行,单机柜重量达1-2吨,对机房承重提出高标准要求; 在机房洁净度方面,由于超万卡集群参数面网络使用大量100G、200G甚至400G的高速光模块,高速光模块本身是一个集成度极高的器件,裸露的光纤通道和内部器件都比较脆弱,要尽可能避免落入灰尘,降低故障率。因此机房需要综合考量制冷和通风方案,在设备侧保持较高的洁净度标准,确保后期集群的稳定运行。在线缆布放方面,由于超万卡集群的算力密度更高、功耗密度更高,线缆的布放量也随之增大。以一个18万卡的智算集群为例,需要布放10万量级的
17、线缆,这将对走线架的宽度和承重带来新的挑战。可见,超万卡集群提出了对高压直流供电技术、高效液冷散热技术、超大规模网络工程便捷落地的刚性需求。这就要求机房配套设施在建设之初,提前对机房供电、制冷、承重等进行配套设计,以更好的支撑超万卡集群快速建设、便捷部署和长期稳定运行。第三章:超万卡集群的核心设计原则和总体架构3.1 超万卡集群的核心设计原则在大算力结合大数据生成大模型的发展路径下,超万卡集群的搭建不是简简单单的算力堆叠,要让数万张GPU卡像一台“超级计算机”一样高效运转,超万卡集群的总体设计应遵循以下五大原则: 坚持打造极致集群算力:基于Scale-up互联打造单节点算力峰值,基于Scale
18、-out互联将单集群规模推高至万卡以上,两者叠加构建超万卡集群的大算力基座; 坚持构建协同调优系统:依托超大规模的算力集群,通过DP/PP/TP/EP等各种分布式并行训练策略,持续提升有效算力,实现极致的计算通信比,最大化模型开发效率; 坚持实现长稳可靠训练:具备自动检测和修复软硬件故障的能力,面向千万器件满负荷运行系统,持续提升MTBF和降低MTTR并实现自动断点续训能力,支持千亿稠密、万亿稀疏大模型百天长稳训练,保证系统稳定性和鲁棒性; 坚持提供灵活算力供给:支持集群算力调度,提供灵活弹性的算力供给和隔离手段,实现训练和推理资源的按需调配,保持单集群大作业和多租户多任务并行训练性能持平;
19、坚持推进绿色低碳发展:持续推进全套液冷解决方案在超万卡集群的应用,追求极致绿色算力能效比(F1.oPS/W)和极低液冷PUE至1.10以下。3.2 超万卡集群的总体架构设计超万卡集群的总体架构由四层一域构成(如图1),四层分别是机房配套、基础设施、智算平台和应用使能,一域是智算运营和运维域。语言大模型I视觉大模型I语音大模型I多模态大模型应用使能智算平台基础设施机房配套PyTorchPMkPaMcMindSpore自动分布式训城框架DeepSpeedMegatror算力原生ROCmCUDACANN裸金屉实例虚拟机实例模型开发工具集数据触务模型部署与分发任务流程跟踪一雁型仓库容器实例存储文件对S
20、R计算融合存储分级存彷CHJGPUDPU卡间高速互联RoCEGSE走城架设计智算运膏运詈管理模块嫡柞调度计量计费租户隔离任务调度算运维故障检测故障隔离性能调优日志管理IaaSM座机容器裸机存储网络风冷液冷高效供电承箪设计图1面向超万卡集群的新型智算总体架构设计 机房配套层:匹配超万卡集群高密集约的建设模式,机房配套设施需重点考虑高效供电、制冷设计、楼板承重和走线架设计等。 基础设施层:算、网、存三大硬件资源有机配合,达成集群算力最优。面向算力,CPU、GPU、DPU三大芯片协同,最大化发挥集群计算能力;面向网络,参数面、数据面、业务面、管理面独立组网,参数面/数据面采用大带宽RoCE交换和二层
21、无阻塞C1.OS组网满足大象流,支持参数面负载均衡和多租安全隔离;面向存储,引入融合存储和分级存储支持无阻塞数据并发访问。 智算平台层:采用K8s,对上提供以裸金属和容器为主的集群资源。在对集群资源进行纳管的基础上,进一步实现大规模集群的自动化精准故障管理,以达成高效训练、长稳运行的目标。面向未来,考虑集群中引入异厂家GPU芯片,为避免智算碎片化问题,引入算力原生,实现应用跨架构迁移和异构混训等平台能力。 应用使能层:包括模型训练框架和开发工具集两个模块,一方面基于现有开源框架能力,进行分布式训练调优,面向未来开展自动分布式训练框架设计,积累经验,实现对通信和计算重叠的优化、算子融合以及网络性
22、能的高效调优;另一方面,研发沉淀数据服务、模型部署开发等工具集,逐步实现由人工处理到基于工具对外提供自动化模型研发能力的转变。 智算运营和运维域:支持超万卡集群高效集合通信和调度。支持按租户灵活资源发放和任务调度,支持多任务并行训练。第四章:超万卡集群关键技术4.1 集群高能效计算技术随着大模型从千亿参数的自然语言模型向万亿参数的多模态模型升级演进,超万卡集群亟需全面提升底层计算能力。具体而言,包括增强单芯片能力、提升超节点计算能力、基于DPU(DataProcessingUnit)实现多计算能力融合以及追求极致算力能效比。这些系统性的提升将共同支持更大规模的模型训练和推理任务,满足迅速增长的
23、业务需求。4.1.1 单芯片能力超万卡集群中,单芯片能力包括单个GPU的计算性能和GPU显存的访问性能。在单个GPU计算性能方面,首先需要设计先进的GPU处理器,在功耗允许条件下,研发单GPU更多并行处理核心,努力提高运行频率。其次,通过优化高速缓存设计,减少GPU访问内存延迟,进一步提升单GPU芯片运行效率。第三,优化浮点数表示格式,探索从FP16到FP8浮点数的表示格式,通过在芯片中引入新的存储方式和精度,在保持一定精度条件下,大幅提升计算性能。最后,针对特定计算任务,可在GPU芯片上集成定制化的硬件加速逻辑单元,这种基于DSA(DomainSpecificArChiteCtUre)的并行
24、计算设计,可提升某些特定业务领域的计算速度。在GPU显存访问性能方面,为了将万亿模型的数据布放在数万张GPU显存上,要求显存支持高带宽、大容量的能力,确保计算单元能够高效完成访存任务,维持系统的低能耗运行。为便捷访问显存数据,建议GPU显存采用基于2.5D/3D堆叠的HBM技术6,减少数据传输距离,降低访存延迟,提升GPU计算单元与显存之间的互联效率。通过这些技术的实施,超万卡集群不仅能够为智算中心提供强大的单卡算力处理能力,还能为未来更大规模的模型训练和推理任务奠定坚实的硬件基础。4.1.2 超节点计算能力针对万亿模型的训练与推理任务,特别是在超长序列输入和MoE架构的应用背景下,应重点优化
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 面向 超万卡 集群 新型 技术 白皮书
链接地址:https://www.desk33.com/p-1427309.html