人工智能算力资源池技术规范.docx
ICS35.240CCSL70标准T/STSIXXXX-XXXX人工智能算力资源池技术规范TechnicalSpecificationsforArtificialIntelligenceComputingPowerResourcePool(征求意见稿)在提交反馈意见时,请将您知道的相关专利连同支持性文件一并附上。XXXX -XX-XX 发布XXXX-XX-XX实施中关村新兴科技服务业产业联盟发布目次前言II1范围12规范性引用文件13术语、定义和缩略语11I术语和定义1Q0缩略语24总体架构25总体要求36功能要求3A1池化管理功能3fti)池化调度功能3fiQ提供任意规格算力资源功能3R4虚拟算力资源隔离功能3RK业务热迁移功能3RA横向扩展功能47兼容性要求48组件通信要求4Q1管理平面网络4Ri)数据平面网络59部署集成要求5Q1部署要求5D0集成要求510安全和可靠性要求51安全要求5InD可靠性要求6,.l.lZl,A刖三本文件按照GB/T1.1-2020标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由中关村新兴科技服务业产业联盟提出并归口。本文件起草单位:本文件主要起草人:人工智能算力资源池技术规范1范围本文件规定了人工智能算力资源池的总体架构、总体要求、功能要求、兼容性要求、组件通信要求、部署集成要求及安全和可靠性要求。本文件适用于人工智能算力资源池的设计、开发和运维。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T41867-2022信息技术人工智能术语GB/T42018-2022信息技术人工智能平台计算资源规范3术语、定义和缩略语11术语和定义GB/T41867-2022.GB/T42018-2022界定的以及下列术语和定义适用于本文件。为方便使用,以下重复列出了GB/T42018-2022中的一些术语和定义。3.1.1人工智能力口速卡artificialintelIigenceacceleratingcard专为人工智能计算涉及、符合人工智能服务器硬件接口的扩展加速设备。来源:GB/T42018-2022,3.63.1.2物理计算资源physicalcomputingresource为人工智能应用提供信息处理能力(如存储、计算等)的实体设备。示例:人工智能服务器、人工智能加速卡和人工智能加速模组等。来源:GB/T42018-2022,3.33.1.3虚拟计算资源VirtUalCOmPUtingresource为人工智能应用提供信息处理能力(如存储、计算等)的逻辑设备。示例:逻辑设备是物理设备的虚拟化形态,它与物理设备间存在映射关系。来源:GB/T42018-2022,3.43.1.4Al算力池化AlcomputingpowerpooIing对物理计算资源进行抽象,软件化后形成一个统一的资源池,方便用户按需对计算资源进行有效调用,无需关注实际物理计算资源的大小、数量、型号以及安插的物理位置。a9缩略语下列缩略语适用于本文件。AI:人工智能(ArtificialIntelligence)API:应用程序编程接口(APPliCatiOnProgrammingInterface)ASIC:专用集成电路(ApplicationSpecificIntegratedCircuit)CPU:中央处理器(CentralProcessingUnit)FPGA:现场可编程逻辑门阵列(FieldProgrammableGateArray)GPU:图形处理单元(GraphicsProcessingUnit)KVM:基于内核的虚拟机(Kernel-basedVirtualMachine)4总体架构人工智能算力资源池总体架构见图1。人工智能业务O55图1总体架构其中: 人工智能业务:基于自然语言处理、计算机视觉、机器学习等技术实现的业务应用;一异构算力资源池:通过软件定义的方式将多种异构算力变成可动态管理的资源池; 运行时:一套兼容各类计算资源的APl编程环境的运行环境,模拟APl编程的运行时接口,实现与上层AI框架的对接和管理; 调度控制服务:资源池的核心管理、调度模块,实现对节点IP地址、物理计算资源信息、虚拟计算资源信息以及应用任务信息等的汇总管理; 运维管理:提供图形用户界面,实现资源池全方位管理与监控; AI算力池化服务:发现并管理节点上的物理计算资源,将物理计算资源池化,将计算能力提供给集群中各个物理节点,以及各个物理节点上的虚拟机、容器; 异构算力:GPU、FPGA、ASlC等多种计算资源。5总体要求耳1资源池应采用分布式架构、模块化设计,在架构及功能方面应具备良好的系统可扩展能力,使得系统在为用户提供服务的过程中能实现平滑扩展,持续运行。59资源池应支持纳管GPU、FPGA、ASIC等各类异构计算资源。4资源池采用的软硬件应便于安装、升级,并具有友好的管理界面。KA资源池应具备人工智能应用和计算资源的解耦能力,在同一-集群的任意节点上运行人工智能业务均可调用人工智能算力资源池内的资源。,工资源池应具备提供细粒度算力资源的能力。56虚拟算力资源池本地调用性能损耗应不高于1%,RDMA网络情况下远程调用性能损耗不高于8%o57资源池应对能耗进行有效的监控和管理,通过远程管理提高运维管理效率。Kfl资源池应支持业务不停机的灰度升级部署。K0资源池在运维管理方面应具备计算资源全局监控、告警、日志、数据统计、报表等能力。6功能要求A1池化管理功能6.1.1 应支持AI应用与物理计算资源解耦合,AI应用向资源池软件调取虚拟计算资源,资源池软件再匹配物理计算资源;6.1.2 应支持多台物理计算资源节点跨机资源聚合,为单一容器/虚拟机提供多卡虚拟计算资源;6.1.3 应支持运行在普通CPU节点的人工智能业务通过网络远程调用物理GPU计算资源节点上的虚拟计算资源;6.1.4 应支持虚拟计算资源动态调整,无需重新加载/重置/重启容器/虚拟机等运行环境。A9池化调度功能6.2.1应支持配置多种算力资源池任意调度策略,包括本地调度、本地优先、节点均衡/紧凑、设备均衡/紧凑等调度策略;6.2.2应支持为不同的AI任务提供个性化的计算资源调度策略;6.2.3应支持Al任务调度计算资源时,可指定物理计算资源节点、人工智能加速卡芯片型号。6?提供任意规格算力资源功能6.3.1应支持为上层业务提供聚合多台计算资源节点上的物理计算资源的能力,提升计算能力。6.3.2应支持为上层业务提供的虚拟计算资源按照算力1%和显存1MB两个维度进行任意切分,提供小算力资源,提供给小任务使用,以此节约算力使用。A4虚拟算力资源隔离功能应支持同一张人工智能加速卡上多任务虚拟计算资源并发运行,虚拟计算资源多任务隔离保护,异常虚拟计算资源任务不影响其他正常任务。A5业务热迁移功能应支持人工智能业务无需中断的业务迁移能力,迁移过程中不影响Al业务对计算资源的远程调用,能够有效保证业务连续性,减少上层业务宕机时间,提升用户使用体验。66横向扩展功能应支持资源池平滑扩容、缩容,支持添加和删除计算资源节点或者人工智能加速卡。7兼容性要求71网络兼容性:TCP/IP以太网络、RDMA网络(InfiniBand和ROCE)。79GPU设备兼容性:NVIDIAGPU、寒武纪MLU、中科海光DCU。7aAPl版本兼容性:NVIDIACUDA、寒武纪NeUWare、中科海光ROCnU74操作系统兼容性:64位CentOS6/7、64位Ubuntu16/18/20。74云平台兼容性:容器环境、kubernetes环境、KVu环境。7A深度学习框架:TensorFlowxPytorch>PaddIePaddIe>MXNet>XgboOSt、Deepsheech>NVCaffe、TensorRT>ONNXo8组件通信要求ft1管理平面网络在部署人工智能算力资源池时,使用基于TCP/IP网络的管理平面,来承载整个系统的管理工作。通过管理网络,分布在各个节点的功能组件都保持和GPU资源池控制模块同步。管理平面网络逻辑结构见图2。图2管理平面网络通过私有的同步协议,分布式部署的各个功能组件应满足如下要求:一算力资源池控制模块支持多副本、高可用的部署模式;各个功能组件启动的次序无要求;当某一个功能组件从错误中恢复之后,可以自动同步到正确状态。A5数据平面网络在应用运行的过程中,应用所在环境和计算资源物理节点之间的数据传输使用的是资源池软件的数据面。该数据面支持多种后端数据传输载体,包括TCP/IP以太网络、RoCERDMA.InfinibandRDMA>ShareMemory等。数据平面网络逻辑结构见图3。i人工智能应用:*,Aljl力范化联务AIIl力5B化里务异构复力资源I异构算力资源MemoryZNetwork运行时AIlt力电化JS务异构宣力资源算力节点算力节点算力节点图3数据平面网络数据平面网络应满足如下要求:高带宽、低延迟;一同时支持多种传输协议,根据优先级自动使用高性能的传输方式;支持虚拟机、容器和宿主机之间的TCP/IP网络隔离。9部署集成要求O1部署要求资源池的各个服务组件,应支持集中式单机部署或者分布式多机部署,部署形式包括直接部署在裸金属服务器上,即安装操作系统后,直接以Binary形式部署,也支持以容器镜像方式部署。3集成要求资源池应具备适配多种LinUX操作系统和云平台的能力,同时支持基于KvM的虚拟机云平台和基于DOCker的容器云平台。应支持原生容器,提供完善的虚拟GPU资源调度插件,以实现和KUberneteS的平滑对接。10安全和可靠性要求Irt1安全要求10.1.1 资源池架构应考虑系统整体运行的安全策略和机制,应采用多种安全技术手段,为系统提供完善的安全保障。应具备自动或手动恢复措施,保证发生故障时能够快速恢复正常运行。10.1.2 资源池应对登录操作系统、数据库系统和应用系统的用户进行身份标识和鉴别,应严格限制匿名用户的访问权限;对管理系统本身的操作进行分权、分级管理。10.1.3 资源池内主机应具备对外界入侵、恶意代码的告警、监控和防护功能。资源池应对物理计算资源使用情况进行有效的监控,应支持资源利用率超阈值的实时报警。10.1.4 资源池应保证虚拟化环境的安全,包括虚拟化软件安全、虚拟计算资源之间的隔离、任务的隔离等。1ft5可靠性要求10.2.1资源池应支持组件分布式部署方式,控制台组件多副本部署,具备控制组件高可用等级。10.2.2资源池应具备任务热迁移能力,当业务虚拟机、容器或者物理计算资源需要下线维护时,可执行人工智能业务热迁移,保障服务不中断。10.2.3资源池关键信息应具备自动或手动备份恢复能力。