面向超万卡集群的新型智算技术白皮书.docx
第一章:超万卡集群背景与趋势11.1 大模型驱动智能算力爆发式增长11.2 超万卡集群的建设正在提速1第二章:超万卡集群面临的挑战42.1 极致算力使用效率的挑战42.2 海量数据处理的挑战42.3 超大规模互联的挑战52.4 集群高可用和易运维挑战52.5 高能耗高密度机房设计的挑战6第三章:超万卡集群的核心设计原则和总体架构83.1 超万卡集群的核心设计原则83.2 超万卡集群的总体架构设计8第四章:超万卡集群关键技术104.1 集群高能效计算技术104.2 高性能融合存储技术144.3 大规模机间高可靠网络技术154.4 高容错高效能平台技术184.5 新型智算中心机房设计24第五章:未来展望26缩略语列表28参考文献29第一章:超万卡集群背景与趋势1.1大模型驱动智能算力爆发式增长自ChatGPT面世以来,大模型步入了迅猛发展期,模型层出不穷,爆点频出,Scaling1.aW1不断得到验证,高速发展的人工智能对数字经济产生了巨大赋能作用。大模型所使用的数据量和参数规模呈现“指数级”增长,2018年BERT模型参数量仅有1.1亿,到2021年GPT-3达到了1750亿。随着MixtureofExperts(MoE)2等先进模型结构的出现,模型参数迈入万亿规模。预计在未来的2-3年,随着Al技术的进步和算力提升,Scaling1.aw还将延续,助推模型参数向十万亿进军。大模型能力的不断跃迁,使得超长序列应用、文生视频、文生音频等基于多模态的应用层出不穷,大模型在各个领域均展现出了强大的智能化能力,“A1+”对生产生活带来了巨大影响。ChatG1.Nk1.1.aMA3>Gemini等大模型的发布更加坚定了科技界持续摸高大模型能力天花板的决心;文生视频多模态大模型Sora的问世更加引爆了行业热点,促使业界在大模型的技术、规模和应用上不断挖掘,以期能创造下一轮爆点。Al技术的发展带动产业大规模升级的同时,也带来了对巨量算力和能源的需求。据公开信息报道,GPT-3训练所消耗的电力,相当于美国约121个家庭一整年的用电量。GPT-4拥有16个专家模型共1.8万亿参数,一次训练需要在大约25000个AlOO上训练90至UloO天。大模型对底层算力、空间、水电能源产生极大消耗,对新一代智算设施的设计要求也日益严苛。更高密度的算存硬件、高性能无阻塞的网络连接以及更高并行度的通信和计算范式成为新一代智算中心的设计目标,新型智算中心(NICC,NewIntelligentComputingCenter)4相关技术将继续被推向新的高度。12超万卡集群的建设正在提速人工智能新纪元,算力为企业科技创新和转型提供有力支撑。在全球化的科技竞争格局中,领先的科技公司正积极部署千卡乃至超万卡规模的计算集群,既是展现其在人工智能、数据分析、大模型研发等前沿领域的技术实力,也向外界展示了公司对未来科技趋势的深远布局。在国际舞台上,诸如GoogleMetaMicrosoft等科技巨头,正利用超万卡集群推动其在基座大模型、智能算法研发及生态服务等方面的技术创新。如Google推出超级计算机A3VirtualMaChineS,拥有26000块NvidiaHlOOGPU,同时基于自研芯片搭建TPv5p8960卡集群。Meta在2022年推出了一个拥有16,000块NvidiaAlOO的Al研究超级集群AlResearchSuperCluster,2024年初又公布2个24576块NvidiaHlOO集群,用于支持下一代生成式Al模型的训练。这些企业通过成千上万台服务器组成的集群计算优势,不断优化服务架构,提升用户体验,加速新技术的市场转化与应用。在国内,通信运营商、头部互联网、大型Al研发企业、Al初创企业等均在超万卡集群的建设和使用过程中不断推动技术革新。(一)通信运营商作为国家算力基础设施建设的中坚力,利用其庞大的机房资源和配套设施优势,正加速推进超万卡集群智算中心的建设。这一举措不仅为运营商自身的大模型研发提供强大的计算支持,同时也为政府、高校和企业客户带来了前所未有的高质量智算服务。随着智算中心建设的不断深入,运营商站在连接技术创新与行业应用的关键位置,其在推动社会数字化转型和智能化升级中的引领作用日益凸显。(二)头部互联网企业作为技术创新的先锋,通过建设超万卡集群来加速其在云计算、大数据分析和大模型研发等领域的突破。字节跳动、阿里巴巴、百度为代表的互联网公司在积极推进超万卡集群的建设。其中,字节跳动搭建了一个12288卡Ampere架构训练集群,研发MegaScale生产系统用于训练大语言模型5。通过集群的强大计算力,这些头部互联网公司不仅加速了自身业务的数字化转型,也为国内科技产业的发展贡献了创新动力。(三)大型Al研发企业出于对大规模模型训练和复杂算法计算的迫切需求,正在积极投建超万卡集群。这些公司作为人工智能领域的先行者,正积极投建超万卡集群以满足其大模型的计算需求。如科大讯飞,2023年建设成首个支持大模型训练的超万卡集群算力平台“飞星一号”。此类集群的建立,不仅为这些企业在Al领域的深入研究提供了必须的算力支撑,也为他们在智算服务的商业应用中赢得了先机。(四)Al初创企业则更倾向于采取灵活的租用模式,利用已有的超万卡集群来支持其创新项目。这些企业为了能够实现应用和投入平衡,大多对基础设施采取灵活的租用模式,利用超万卡集群的强大计算能力来支持其创新项目。这种模式降低了初创企业的初始投资门槛,使他们能够快速获得高性能的计算资源,加速产品的研发和迭代。整体而言,无论是通信运营商、头部互联网企业、大型Al研发企业还是Al初创企业,都在通过自建或使用超万卡集群加速其在人工智能领域的技术突破和产业创新。随着超万卡集群建设的不断深入,我们预见这一趋势将为整个智算产业的发展带来深远影响。第二章:超万卡集群面临的挑战当前,超万卡集群的建设仍处于起步阶段,主要依赖英伟达GPU及配套设备实现。英伟达作为全球领先的GPU供应商,其产品在大模型训练上有较大优势。得益于政策加持和应用驱动,国产Al芯片在这两年取得长足进步,但在整体性能和生态构建方面仍存在一定差距。构建一个基于国产生态体系、技术领先的超万卡集群仍面临诸多挑战。2.1极致算力使用效率的挑战大量实践表明,针对大模型分布式训练场景,集群规模的线性提升无法直接带来集群有效算力的线性提升,卡间和节点间的互联网络、软件和硬件的适配调优是追求集群极致有效算力的关键挑战。我们把集群有效算力分解为“GPU利用率”和“集群线性加速比”两个重要指标,其中“GPU利用率”受限于芯片架构和制程、内存和I/O访问瓶颈、卡间互联带宽和拓扑、芯片功耗等因素,“集群线性加速比”则取决于节点间的通信能力、并行训练框架、资源调度等因素,两者的最大化发挥将最终表现为模型训练效率提升和成本降低。在超万卡集群中,需要运用系统工程方法,通过对超万卡集群网络的精细化设计、软硬件全栈整合优化,综合提升集群算力使用效率。2.2海数据处理的挑战千亿模型的训练需要对PB量级的数据集使用多种协议进行处理,未来万亿模型的训练对checkpoint的读写吞吐性能更是要求高达IOTBs,现有智算存储系统在协议处理、数据管理、吞吐性能等方面面临诸多挑战:协议处理层面:传统智算存储系统按照块、文件、对象等不同协议建设分立存储池,多套不同协议存储系统之间需要来回拷贝数据,影响数据处理效率,浪费存储空间,增加运维难度;吞吐性能层面:传统智算的分布式文件存储仅支持百节点级别扩展,节点规模小,难以提供超万卡集群所需的IOTB/s以上的数据吞吐性能;数据管理层面:传统智算的数据存储需人工干预,进行冷热分类,并在高性能和普通性能存储集群之间迁移。跨系统的数据管理和迁移降低了大模型下海量数据处理效率,还会额外占用网络带宽和计算节点资源。因此,超万卡集群的存储系统需要通过协议融合、自动分级等一系列技术手段,提供高效的数据共享和处理能力,满足大模型训练的需求。2.3超大规模互联的挑战模型规模扩大到万亿量级,数据的吞吐量和计算量已远远超过目前最强单机单卡能力,多机多卡互联和并行训练策略成为必须。以在超万卡集群部署1.8万亿GPT-4为例,在大模型训练过程中,每轮迭代计算都涉及前反向传播算法的计算和通信,这对超万卡集群的ScaleOut和ScaleUP网络提出极大挑战。 在ScaleOut互联层面,网络承载数据并行(DataParallel,DP)和流水线并行(PiPeIineParaIIeIjPP)流量,参数面网络带宽需达到200GbPS至400Gbps,数据面网络需要配备100GbPS带宽,保证数据读取不成为训练瓶颈。此外,参数面网络还需要应对因多租户多任务并行训练通信特征不规整、上下行ECMP(EqualCostMultiPath)选路不均衡而引发的高速大象流的交换冲突和拥塞。 在Scaleup互联层面,由于MoE专家并行和张量并行(TenSOrParallel,TP)的通信无法被计算掩盖,不仅要求卡间互联带宽达到几百甚至上千GB的量级,而且应突破当前单机8卡的限制,以支持更大参数量的模型训练。此外,Scaleup互联还需要保持高频度、低时延、无阻塞的通信模式。2.4集群高可用和易运维挑战超万卡集群承载万亿模型训练意味着千万器件的满负荷高速运转,任一部件不可恢复的失效都可能导致训练中断,带来超万卡集群高可用和易运维的关键挑战:千万器件维护管理难度大:超万卡集群由数千台智算服务器+数千台交换机+数千台存储设备以及数万根光纤/数万颗光模块构成,训练任务涉及千万颗元器件满负荷高速运转,基于固有的元器件硬件失效率和海量的器件规模带来硬件故障频发,涉及到的软硬件故障模式繁杂,故障管理挑战巨大;复杂系统故障定位难度大:万亿模型训练的过程是各个软硬组件精密配合的过程,一旦发生问题定界定位复杂。业界典型硬件故障定位需广2天,复杂应用类故障定位可能长达数十天。快速自动定界定位能力需要结合实际运维经验进行系统性积累和针对性持续改进。高负荷运行故障概率高:万亿大模型训练至TTA(TimeToAccuracy)一般需要一百天7X24小时满负荷运行。而硬件MTBF(MeanTimeBetweenFailure)伴随集群规模的增长越来越短,万亿大模型训练作业中断频发,业界超万卡集群持续稳定运行仅数天,断点续训恢复缓慢,直接影响模型训练效率。超万卡集群急需支持更有效、更快速、影响更小的自动断点续训功能。2.5高能耗高密度机房设计的挑战超万卡集群对机房配套设施的需求相对于传统IDC云数据中心发生重大变化,对供电、承重、机房洁净度和走线架设计等有极高要求: 在供电方面,当芯片TDP设计功率上升至400700W,单柜功率从原先的78KW上升至40KW甚至60KW,集群整体功耗将攀升至数十上百MW,机房需要进行功率提升改造,并配合进行散热能力提升改造; 在承重方面,由于集群规模翻番增长,为了保障单位空间的算力密度,需要引入液冷方案,确保智算芯片的高速运行,单机柜重量达1-2吨,对机房承重提出高标准要求; 在机房洁净度方面,由于超万卡集群参数面网络使用大量100G、200G甚至400G的高速光模块,高速光模块本身是一个集成度极高的器件,裸露的光纤通道和内部器件都比较脆弱,要尽可能避免落入灰尘,降低故障率。因此机房需要综合考量制冷和通风方案,在设备侧保持较高的洁净度标准,确保后期集群的稳定运行。在线缆布放方面,由于超万卡集群的算力密度更高、功耗密度更高,线缆的布放量也随之增大。以一个18万卡的智算集群为例,需要布放10万量级的线缆,这将对走线架的宽度和承重带来新的挑战。可见,超万卡集群提出了对高压直流供电技术、高效液冷散热技术、超大规模网络工程便捷落地的刚性需求。这就要求机房配套设施在建设之初,提前对机房供电、制冷、承重等进行配套设计,以更好的支撑超万卡集群快速建设、便捷部署和长期稳定运行。第三章:超万卡集群的核心设计原则和总体架构3.1 超万卡集群的核心设计原则在大算力结合大数据生成大模型的发展路径下,超万卡集群的搭建不是简简单单的算力堆叠,要让数万张GPU卡像一台“超级计算机”一样高效运转,超万卡集群的总体设计应遵循以下五大原则: 坚持打造极致集群算力:基于Scale-up互联打造单节点算力峰值,基于Scale-out互联将单集群规模推高至万卡以上,两者叠加构建超万卡集群的大算力基座; 坚持构建协同调优系统:依托超大规模的算力集群,通过DP/PP/TP/EP等各种分布式并行训练策略,持续提升有效算力,实现极致的计算通信比,最大化模型开发效率; 坚持实现长稳可靠训练:具备自动检测和修复软硬件故障的能力,面向千万器件满负荷运行系统,持续提升MTBF和降低MTTR并实现自动断点续训能力,支持千亿稠密、万亿稀疏大模型百天长稳训练,保证系统稳定性和鲁棒性; 坚持提供灵活算力供给:支持集群算力调度,提供灵活弹性的算力供给和隔离手段,实现训练和推理资源的按需调配,保持单集群大作业和多租户多任务并行训练性能持平; 坚持推进绿色低碳发展:持续推进全套液冷解决方案在超万卡集群的应用,追求极致绿色算力能效比(F1.oPS/W)和极低液冷PUE至1.10以下。3.2 超万卡集群的总体架构设计超万卡集群的总体架构由四层一域构成(如图1),四层分别是机房配套、基础设施、智算平台和应用使能,一域是智算运营和运维域。语言大模型I视觉大模型I语音大模型I多模态大模型应用使能智算平台基础设施机房配套PyTorchPMkPaMcMindSpore自动分布式训城框架DeepSpeedMegatror算力原生ROCmCUDACANN裸金屉实例虚拟机实例模型开发工具集数据触务模型部署与分发任务流程跟踪一雁型仓库容器实例存储文件对SR计算融合存储分级存彷CHJGPUDPU卡间高速互联RoCEGSE走城架设计智算运膏运詈管理模块嫡柞调度计量计费租户隔离任务调度算运维故障检测故障隔离性能调优日志管理IaaSM座机容器裸机存储网络风冷液冷高效供电承箪设计图1面向超万卡集群的新型智算总体架构设计 机房配套层:匹配超万卡集群高密集约的建设模式,机房配套设施需重点考虑高效供电、制冷设计、楼板承重和走线架设计等。 基础设施层:算、网、存三大硬件资源有机配合,达成集群算力最优。面向算力,CPU、GPU、DPU三大芯片协同,最大化发挥集群计算能力;面向网络,参数面、数据面、业务面、管理面独立组网,参数面/数据面采用大带宽RoCE交换和二层无阻塞C1.OS组网满足大象流,支持参数面负载均衡和多租安全隔离;面向存储,引入融合存储和分级存储支持无阻塞数据并发访问。 智算平台层:采用K8s,对上提供以裸金属和容器为主的集群资源。在对集群资源进行纳管的基础上,进一步实现大规模集群的自动化精准故障管理,以达成高效训练、长稳运行的目标。面向未来,考虑集群中引入异厂家GPU芯片,为避免智算碎片化问题,引入算力原生,实现应用跨架构迁移和异构混训等平台能力。 应用使能层:包括模型训练框架和开发工具集两个模块,一方面基于现有开源框架能力,进行分布式训练调优,面向未来开展自动分布式训练框架设计,积累经验,实现对通信和计算重叠的优化、算子融合以及网络性能的高效调优;另一方面,研发沉淀数据服务、模型部署开发等工具集,逐步实现由人工处理到基于工具对外提供自动化模型研发能力的转变。 智算运营和运维域:支持超万卡集群高效集合通信和调度。支持按租户灵活资源发放和任务调度,支持多任务并行训练。第四章:超万卡集群关键技术4.1 集群高能效计算技术随着大模型从千亿参数的自然语言模型向万亿参数的多模态模型升级演进,超万卡集群亟需全面提升底层计算能力。具体而言,包括增强单芯片能力、提升超节点计算能力、基于DPU(DataProcessingUnit)实现多计算能力融合以及追求极致算力能效比。这些系统性的提升将共同支持更大规模的模型训练和推理任务,满足迅速增长的业务需求。4.1.1 单芯片能力超万卡集群中,单芯片能力包括单个GPU的计算性能和GPU显存的访问性能。在单个GPU计算性能方面,首先需要设计先进的GPU处理器,在功耗允许条件下,研发单GPU更多并行处理核心,努力提高运行频率。其次,通过优化高速缓存设计,减少GPU访问内存延迟,进一步提升单GPU芯片运行效率。第三,优化浮点数表示格式,探索从FP16到FP8浮点数的表示格式,通过在芯片中引入新的存储方式和精度,在保持一定精度条件下,大幅提升计算性能。最后,针对特定计算任务,可在GPU芯片上集成定制化的硬件加速逻辑单元,这种基于DSA(DomainSpecificArChiteCtUre)的并行计算设计,可提升某些特定业务领域的计算速度。在GPU显存访问性能方面,为了将万亿模型的数据布放在数万张GPU显存上,要求显存支持高带宽、大容量的能力,确保计算单元能够高效完成访存任务,维持系统的低能耗运行。为便捷访问显存数据,建议GPU显存采用基于2.5D/3D堆叠的HBM技术6,减少数据传输距离,降低访存延迟,提升GPU计算单元与显存之间的互联效率。通过这些技术的实施,超万卡集群不仅能够为智算中心提供强大的单卡算力处理能力,还能为未来更大规模的模型训练和推理任务奠定坚实的硬件基础。4.1.2 超节点计算能力针对万亿模型的训练与推理任务,特别是在超长序列输入和MoE架构的应用背景下,应重点优化巨量参数和庞大数据样本的计算效率,满足由此引发的AII2AII通信模式下的GPU卡间通信需求。为此,建议超万卡集群的改进策略集中在以下几个关键领域: 加速推进超越单机8卡的超节点形态服务器为满足万亿或更大参数量模型的部署需求,建议产业界致力于研制突破单机8卡限制的超节点形态服务器,通过利用提高GPU南向的Scaleup互联能力,提升张量并行或MoE并行对大模型训练任务的收益,实现性能跃升,缩短训练总时长,实现大模型训练整体性能的优化。 加快引入面向Scaleup的Switch芯片建议在节点内集成支持ScaleUP能力的Switch芯片,以优化GPU南向的互联效率和规模,增强张量并行或MoE并行的数据传输能力。如图2所示,通过引入节点内的Switch芯片,以增强GPU卡间的点对点(PoimtoPoint,P2P)带宽,有效提升节点内的网络传输效率,满足大模型日益增长的GPU互联和带宽需求,为大规模并行计算任务提供强有力的硬件支持。GPU服务器图2在服务器内部引入SWitCh芯片示例 优化GPU卡间互联协议以实现通信效率跃升建议对GPU卡间互联协议进行系统性优化和重构,以提升AII2AII模式下的通信效率。通过重新设计卡间通信过程中的数据报文格式、引入CPO(Co-PackagedOptics)NPO(NearPackagedOptics)提高和优化SerDes传输速率、优化拥塞控制和重传机制以及多异构芯片C2C(Chip-to-Chip)封装等多种途径,提高超万卡集群的GPU卡间互联的网络利用率,减少通信时延,实现带宽能力跃升,从而支持所需的更高频次、更大带宽和更低延迟通信特性。 .1.3多计算能力融合面向超万卡集群,考虑到智算中心内部成倍增长的数据交换需求,通过堆叠CPU资源来处理网络数据的做法无疑是低效且昂贵的,对此,智算中心的计算架构需要转变方向,将原本运行在CPU、GPU中的数据处理任务卸载至具有层级化可编程、低时延网络、统一管控等特性的DPU上执行,在大幅扩展节点间算力连接能力的同时,释放CPU、GPU的算力,降低节点间的CPU、GPU协作成本,支撑集群发挥更大的效能。具体地,可以对智算中心进行软硬一体重构,打造计算、存储、网络、安全、管控五大引擎,定义标准化的DPU片上驱动内核:计算引擎卸载加速I/O设备的数据路径与控制路径,面向节点提供标准化的virtio-net(VirtualI/ONetwork)、virtio-blk(VirtiualI/Obl。Ck)后端接口,屏蔽厂商专用驱动。存储引擎在DPU上实现存储后端接口,可基于传统TCP/IP网络协议栈或RDM(RemoteDirectMemoryACCeSS)网络功能连接块存储集群、对象存储集群、文件存储集群及文件存储集群,将节点的全类型存储任务卸载至DPU中完成。网络引擎将虚拟交换机卸载至DPU上,采用标准的流表和卸载接口实现网络流量的卸载,全线速释放硬件性能;同时集成RDMA网络功能,降低多机多卡间端到端通信时延,提升多机间端到端通信带宽至40OG级别,构建节点间数据交换的“高速通道”。安全引擎通过信任根机制以及标准的IPSeC等加密通讯协议对系统和多租户网络进行安全防护,并基于DPU提供有效的卸载方案。管控引擎屏蔽裸金属、虚拟机和容器等算力单元的形态差异,实现DPIJ资源统一管理和全链路管控运维。以上述五大引擎为蓝图,中国移动于2020开始打造具有自主知识产权的磐石DPU,并于2021年正式推出磐石DPU版本。经过移动云现网的打磨,中国移动持续升级磐石DPU产品能力,并于2024年将磐石DPU的FPGA架构全面升级为ASIC架构,旨在围绕磐石DPU软硬融合重构算力基础设施,重新定义算力时代云计算技术新标准,构建算力时代新技术曲线。将以磐石DPU为代表的DPU芯片融入现有智算中心技术体系,将算力集群由CPU+GPU双平台支撑扩展至由CPU÷GPU+DPU三平台支撑,可以有效联合集群节点间因数据I/O瓶颈而产生的算力孤岛,突破现有技术架构下的集群规模极限,使超万卡集群成为可能。414极致算力能效比在制程工艺相对固定的条件下,芯片的高性能无疑会增加芯片的功耗,从而影响整机的散热。面对高性能计算芯片功率密度急剧上升的现状,需要通过制冷系统和GPU芯片两方面进行优化。在制冷系统方面,当前单机8卡GPU服务器功耗已经数倍于通用服务器,由于GPU的散热量大幅增加,为了增加计算密度,节省空间,超万卡集群建议采用当前较成熟的高密度冷板式液冷机柜,一个液冷机柜可容纳多台液冷GPU训练服务器,相比传统风冷机柜大幅提升空间利用率。在GPU芯片方面,为了提升GPU单芯片的能效比,应采取多领域的优化策略,实现高性能与低能耗之间的平衡。在芯片工艺领域,建议采用更加先进的半导体制造工艺,如7nm或更小的特征尺寸,以此降低晶体管的功耗,同时提升单芯片集成度。此外,应加强超万卡集群内GPU架构的创新设计,包括优化片上总线设计、改进流水线结构、优化电压和频率策略以及精确的时钟门控技术,从而在不同工作状态下实现最优的能耗效率。在软件层面,超万卡集群应采用更加精细的监控和分析,实时跟踪GPU的运行数据,并不断优化算法和工作负载分配,以实现更加均衡和高效的算力利用。通过上述设计和优化,不仅能提高用户的计算体验,降低成本,也为智算中心可持续发展和绿色环保提出了可行方案。4.2高性能融合存储技术为了实现存储空间高效利用、数据高效流动,并支持智算集群大规模扩展,超万卡集群应采用多协议融合和自动分级存储技术,提升智算数据处理效率,助力超万卡集群支撑千亿乃至万亿大模型训练。1.1 .1多协议融合超万卡集群融合存储底座承载Al全流程业务数据处理,兼容Al全流程工具链所需的NFS(NetworkFileSystem)、S3(SampleStorageService)和并行客户端POSIX(PortableOperatingSystemInterface)等协议,支持各协议语义无损,达到与原生协议一样的生态兼容性要求,在不同阶段实现数据零拷贝和格式零转换,确保前一阶段的输出可以作为后一阶段的输入,实现Al各阶段协同业务的无缝对接,达到“零等待”效果,显著提升大模型训练效率。422耨高Sttt性能为满足超万卡集群大模型对于存储高吞吐性能需求,基于全局文件系统技术,可支持超3000节点扩展规模,为大模型训练提供百PB级全闪存储大集群能力,从闪存密度、数据面网络、并行客户端和对等通信机制等多个维度全面提升存储系统性能,实现存储集群IOTB/s级聚合吞吐带宽、亿级IOPS,智能算力利用率提升20%以上,大模型checkpoint恢复时长从分钟级提升至秒级,同时对高价值智算存储数据提供强一致性访问和99.9999%可靠性能力。4.23 垓9IrS超万卡集群数据量巨大,其中大部分是温冷数据,统筹考虑性能和成本因素,规划普通性能、高性能两类存储集群。普通性能存储集群使用混闪存储介质,具备低成本和大容量优势,提供温冷数据存储;高性能存储集群使用全闪存储介质,为大模型训练提供数据高吞吐能力,主要用于存放热数据。为智算应用高效管理和访问数据,两类存储集群应该对外呈现统一命名空间,提供基于策略的数据自动分级流动能力,实现冷热数据按照策略自动流动,避免人工频繁介入,提升存储系统整体运行效率。ChinaMobile4.3大规模机间高可靠网络技术超万卡集群网络包括参数面网络、数据面网络、业务面网络、管理面网络。业务面网络、管理面网络一般采用传统的TCP方式部署,参数面网络用于计算节点之间参数交换,要求具备高带宽无损能力。数据面网络用于计算节点访问存储节点,也有高带宽无损网络的诉求。超万卡集群对参数面网络要求最高,主要体现在四个方面:大规模,零丢包,高吞吐,高可靠。目前业界成熟的参数面主要包括IB(InfiniBand)和RoCE两种技术。面向未来Al大模型演进对网络提出的大规模组网和高性能节点通信需求,业界也在探索基于以太网新一代智算中心网络技术,包括由中国移动主导的全调度以太网(GIObalScheduledEthernetjGSE)方案6和1.inuxFoundation成立的超以太网联盟(UItraEthernetConsortium,UEC),两者通过革新以太网现有通信栈,突破传统以太网性能瓶颈,为后续人工智能和高性能计算提供高性能网络。中国移动也将加速推动GSE技术方案和产业成熟,提升Al网络性能,充分释放GPU算力,助力Al产业发展。4.3.1 大规模组网根据不同的Al服务器规模,参数面网络推荐采用Spine-1.eaf两层组网或胖树(Fat-Tree)组网。Spine-1.eaf两层组网如图3所示。每8台1.eaf交换机和下挂的Al服务器做为一个group,以gr。叩为单位进行扩展。在group内部,推荐采用多轨方案将Al服务器连接至1.eaf交换机,即所有Al服务器的1号网口都上连至1.eafl,所有2号网口上连至1.eaf2,依此类推,所有8号网口上连至1.eaf8。Spine交换机和1.eaf交换机之间采用Fullmesh全连接。1.eaf交换机上下行收敛比为1:1。SPine交换机训练网口1.eaf交换机grouplgroupn图3Spine-1.eaf两层组网胖树(Fat-Tree)组网由1.eaf交换机、Spine交换机和Core交换机组成,如图4所示。每8台1.eaf交换机和下挂的Al服务器做为一个group,8台1.eaf交换机又和上面N台Spine交换机组成一个pod,胖树组网以pod为单位进行扩展。在胖树组网中,Spine交换机和1.eaf交换机之间采用Fullmesh全连接,所有Spinel都Full-Mesh连接至第一组Core,所有Spine2都Full-Mesh连接至第二组Core,依次类推。Spine交换机和1.eaf交换机上下行收敛比都为1:1。©中国移动中移智库ChinaMobile4.3.2 零丢包无损网络分布式高性能应用的特点是“多打一”的Incast流量模型。对于以太交换机,Incast流量易造成交换机内部队列缓存的瞬时突发拥塞甚至丢包,带来应用时延的增加和吞吐的下降,从而损害分布式应用的性能。Al人工智能计算场景通常采用RoCEv2协议与DCQCN(DataCenterQuantizedCongestionNotification)拥塞控制机制相互配合实现零丢包无损网络。DCQCN要求交换机对遇到拥塞的报文进行ECN(ExplicitCongestionNotification)标记,传统方式的ECN门限值是通过手工配置的,这种静态的ECN水线无法适配所有的业务流量模型;水线配置低了,频繁进行ECN通告,网络吞吐上不来;水线配置高了,可能导致频繁触发PFC(Priority-basedFlowControl),影响整网的其他业务流量。因此建议在参数面网络和数据面网络里部署动态ECN技术,通过Al算法,根据网络业务流量模型,计算出对应的ECN水线配置,达到在保证吞吐的同时,尽量维持较低的队列时延,让网络的吞吐和时延达到最佳平衡。无论是静态ECN还是动态ECN,本质上都是被动拥塞控制机制,通过反压源端降低报文发送速度来保证网络无损,实际上并没有达到提升吞吐率效果,反而降低了GPU利用率。因此,中国移动提出GSE技术,通过全局动态的主动授权机制,从根本上最大限度消除网络拥塞,减少网络设备队列资源的开销,降低模型训练任务的长尾时延,突破RoCEv2性能瓶颈。4.3.3 高吞吐网络Al人工智能计算场景的流量特征是流数少、单流带宽大。传统的ECMP(EqualCostMultiPath)是基于5元组的逐流HASH,在流数少的时候极易出现HASH不均的情况,建议使用端口级负载均衡技术或算网协同负载均衡技术代替传统的ECMPo端口级负载均衡部署在1.eaf交换机上,以源端口或目的端口作为数据流均衡的影响因子,在一个端口组内将归属于不同端口的数据流均衡到本地出端口集合上,消除传统基于五元组哈希的不确定性。除此之外,还可以在参数网络里部署算网协同负载均衡技术,Al调度平台把任务信息通知给网络控制器,网络控制器结合已经建立的整网拓扑信息,进行整网最优转发路径计算,计算完成后自动生成路径并动态下发到网络设备,实现多任务全网负载均衡。使网络吞吐可以达到95%以上,接近满吞吐。4.3.4 高可靠网络超万卡集群中网络作为业务流量的调度中枢,其稳定性决定着整个集群的运行效率。在典型的C1.OS组网中,交换机之间都有多条路径,当一条链路出现故障的时候,通过感知端口状态、路由收敛、转发路径切换等操作,完成流量从故障链路到备用链路的收敛。但是这个时间一般在秒级。然而在Al场景里面,每次通信时间在毫秒级别,秒级时间内正常情况下已完成了多轮通信。如果依靠传统的路由收敛方式,将极大的影响Al计算效率。DPFR(DataPlaneFastRecovery)技术在此场景下,可以做到毫秒级收敛,提供基于数据面的本地快收敛或远程快收敛。特性包含故障快速感知,故障本地快速收敛,故障通告生成、接收和中继处理,故障远程快速收敛和表项老化处理。针对关键应用,尽量做到应用无感知的故障快速收敛效果,即在链路故障发生时业务性能无明显下降。4.3.5 4高容错高效能平台技术智算平台是智算中心承载模型训练、推理和部署的综合性平台系统,在智算中心技术体系架构中承担着重要的角色,对算力基础设施进行统一纳管、调度、分配和全生命周期管理,主要包含对计算、存储、网络等IaaS资源的云化管控,在此基础上通过云原生的容器底座能力,实现智算资源纳管分配、Al任务作业调度、拓扑感知调度、训练全链路监控等满足智算业务的核心需求。随着模型参数量和数据量的激增,训练所需的单集群规模来到万级,但是智算平台的性能通常不能随着算力线性增长,而是会出现耗损,因此大模型训练还需要高效的算力调度来发挥算力平台的效能。而这不仅需要依赖算法、框架的优化,还需要借助高效的算力调度平台,根据算力集群的硬件特点和计算负载特性实现最优化的算力调度,来保障集群可靠性和计算效率。针对以上问题,业界多以断点续训I、并行计算优化、智能运维等作为切入点,构建高容错高效能智算平台。4.4.1断点续训高容错能力大模型训练面临的困难在于确保训练任务能够持续进行而不中断。在训练过程中,可能会遇到硬件故障、软件故障、网络故障以及其他故障。这种频繁中断导致的训练进度的损失对于耗时又耗资源的大模型训练来说是难以承受的,需要具备自动故障检测和训练重启。当前业界大模型训练主要容错方案依赖于训练过程中周期性保存checkpoint,故障发生后从上一个周期性checkpoint重新启动训练。基于平台的运维监控能力,可以实现对超万卡集群的软硬件故障检测和预警,但是当故障发生且导致模型训练中断或停止时,通常需要人工介入排查故障信息,隔离故障并重新触发容器pod资源调度,重新完成并行训练中集合通信的初始化,重新加载基于中断前最近一次保存的checkpoint信息,最后经历算子库的重新编译,完成训练任务的继续。图5为典型的断点续训流程:图5断点续训流程在断点续训过程中,checkpoint是模型中断训练后恢复的关键点,因此checkpoint密集程度、保存和恢复的性能尤为重要,checkpoint本身的耗时与模型的大小成正比,当模型参数达到百亿甚至千亿时,checkpoint的时间开销通常在几分钟到十几分钟之间。此时,训练任务需要暂停,使得用户难以频繁进行checkpoint操作,因此为保证训练效率,会适当拉长checkpoint保存周期。然而,一旦发生中断,之前损失的迭代次数在恢复时需要重新计算,需要花费更长的时间。为解决该问题,需要尽量降低checkpoint流程的开销,既能大幅降低训练暂停时间,也能支持高频的CheCkPOint来减少容错时浪费的迭代步数。业界通常采用checkpoint多级存储的方式,构建基于更高IO性能的内存介质构建存储系统,相比于磁盘或者网络文件存储系统,checkpoint在内存空间的保存可以大幅缩短训练暂停等待时间。同时,结合业务需求定期地将checkpoint异步写入到持久化的存储系统中,异步流程不干扰正常的训练。当发生故障导致训练任务重启时,由于内存系统中的checkpoint数据并未丢失,新启动的训练进程可以直接读取内存系统中的checkpoint数据来加载模型和优化器状态,从而省去了读取网络存储系统的IO开销。断点续训基于多级checkpoint存储、软硬件协同优化以及全栈系统级容错,实现训练任务分钟级恢复,在技术价值方面,实现故障检测、故障隔离、资源重调度、训练任务恢复无人工全流程自动化;在商业价值方面,作为智算平台关键特性提供给模型开发者使用,保障大模型训练任务长期稳定运行,提升用户满意度。4.4. 2分布式并行计算优化超万卡集群中分布式并行训练框架8、9是标准配置,即在大规模算力资源池上搭建用于并行处理深度学习模型分布式训练任务的工具集合,其将训练任务划分为多个子任务,通过在多台计算机上并行执行,实现高效、可靠和快速的分布式大模型训练,提高模型的准确性和效率。超万卡集群因节点数众多、资源类型不统一、数据量大、网络环境复杂,给大模型训练带来了许多挑战。挑战一:实现大规模的高效率训练。ModelF1.OPsutilization(MFU)是实际吞吐量与标称最大吞吐量之比,是评估模型训练效率的通用指标,可以直接反映端到端的训练效率。为了训练大模型,需要将模型分布为多个