2024工智能 计算设备调度与协同第第1部分:虚拟化与调度.docx
人工智能计算设备调度与协同第1部分:虚拟化与调度前言II1苑困12烷范性引用文件13术语和定义14缩略唱35概述36计算设备虚拟化技术要求46.1 概述46.2 基本要求46.3 扩展要求77计算资源调度技术要求107.1 概述107.2 功能要求117.3 性能优化要求127.4 调度策略要求127.5 接11要求128运维监控技术要求148.1 A1.加速卡赛控H8.2 计算实例监控1.18.3 AI任务赛控148.4 日志监控159测试方法169.1 虚抵化测试169.2 调度测试19附录A(资料性)典型处理器的虚拟化参考架构22参考文献25人工智能计算设备调度与协同第1部分:虚拟化与调度1范困本文件给出了人工智能计和设备虚拟化与调度的架构,规定了技术要求,描述了测试方法。本文件适用于人工智能计算设备虚拟化与调度的系统设计、研发和测试.2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款.其中,注日期的引用文件,仅该日期对应的版本适用于本文件:不注日期的引用文件,其最新版本(包括所有的修改的)适用于本文件。GB/TAAAAA人工智能服务渊系统性能测试规范3术语和定义GBa418672022界定的以及下列术语和定义适用于本文件.3.1人工智能计算单元artificia1.inte1.1.igencecomputingunit执行人工智能计算任务所必要的部件的最小集合.注:人工智能计算单元-IR豺装在人工W能加速器或加速卜中.3.2人工智能加速处理器artificia1.inte1.1.igenceacce1.eratingprocessor人工智能加速芯片artificia1.inte1.Iigenceacce1.eratingchip具备适配人工智能算法的运算微架构,Ife载完成人工智能应用运豫处理的集成电跖元件.3.3人工智能加速卡artificia1.inte1.1.igenceacce1.eratingcard专为人工智能计算设计、符合人工智能服务器硬件接口的扩展加速改备.注:人工智能加速卡按功籍可分为人工田能训练加速卡,人工科倭持理加速I:等.3.4人工智能计算实例artificia1.inte1.Iigencecomputinginstance执行人工智能计算任务的虚拟化对象。3.5虚拟化virtua1.ization一种资源衣示形式,我示与潜在的物理资源解设.来源:ISO/IEC17826:2022.3.553.6异构资源池heterogeneousresourcepoo1.一种由不同架构的人工智能计算资源集合形成的抽象实体,货随池内的人工智能计算资源使场被管理诩度,以满足不同人工智能计灯任务的需求.注Is片构货海泡提供一种可仲缩计。架构.有利于合理分配计算货源,为不同运行环境(例如云、9U%移动谀».物联网)的人工智能应用系统的开发和翁:冲提供计口倭力、存储.济宽和妞时保障。注2:人工智傥计就货源包括中央处理单元(CPs、图形处理通元(C1.t>'神经网络处理单元(Np(!)、现场"侔程道辑门阳列(卬G).数字信号处理潺(DSP)、专用奥成电路(AS1.C)等3.7计算能力computingcapabiIity产品或系统参数能够满足计算需求的朵夫程度,注1:参数Hi能处理的作业数M,僮展外的A4大用户数M成分吞吐Ift笄.注2:标称计"傥力是特定产品或系统在通位时间内理论上链完成的计方操作次数.3.8神经网络处理器nouraI-networkprocessingunit一种专门针对神经网络计算进行特殊优化设计的集成电路元件.注:该类双成电路元件报长处理睨知、图像、谙音英多媒体数糖.3.9人工智能计算任务artificia1.inte1.1.igencecomputingtask为取得特定人工智能计算目标所需的活动,注:本文件中,在不至于误解的语境中,人工智能计算任务-殷报推理任务或训故任务.来源:ISO/1EC25062:2006,4.9,有脩改3.10性能performance人工智使加速卡在运行计算任务时.可被测证的特性,在评估人工智能任务的性能时,一般采用赤'.率特性。注1:性能包含定性及定量的恃征,注2,性能些干个或多个&Ikfttu,充0.答吐*.运行时间以及速率.等)的测场或计K获褥.以表征在某机JS中运行的某技术过程的行为、特性以及效率.来源:IS0IEC20000.10:2018,3.1.16,有修改J3.11人工智能计算集群artificia1.inte1.1.igencec1.uster遵循统一控制的,人工智能计尊功能单元的集合.注1:人工智能计0功能单元可包含人工智能加速器,人工智能服分器.人工智能切速模组等注2三当由人工智能忸务器沉成时.人工科能城府可称为人工皆傥服务;K集JT节点no加由网络连接的能完成特定人工智能计算任务的物理或逻辑人J1.智能计算设i【来源:ISO/1EC14575:2000,3.2.27,有修改3.13调度scheduing控制特定任务的整体或部分的执行场所利时间的过程.注:在本文件中场所一股指人工智能计5单元.来源:IS()/1EC10164.15:2002.3.7.4,有修改3.14调度器SChedU1.er一种在系统中完成调度的细件。注:在本文件中,调度器用于面向不同的计算需求分配人I:智能计口资源.3.15隔离iso1.ation计算实例间的计算和数据相互不影响和不可访问.注I弊力隔而指的址计算实例之间的计算徒力不Ti.相影响.来源:ISO/IECTS25052:1:2022,3.1.5.3,有修改4缩珞语下列缩略语适用于本文件。AIs人工智能(ArtifiCia1.Inte1.1.igence)BAR:基址寄存器(BaseAddressRegister)CPU:中央处理器(CenterProcessingUnits)DDR:双倍速率传输率(DOUbIeDataRate)DMA:H接存储器访问(DireC1.YeBOryACCeSS)FPCAs现场可编程逻辑门阵列<Pie1.dProgramBab1.eGateArray>GDDR:图形双倍速率传输行储器(GraphicsDDRSDRAM)GPU:图形处理擀(GraphicsProcessingUnits)HR*高带宽存储器(HighBandwidthMenwry)NP1.:神经网络处理器(Neura!-networkProcessingUnits)PCIE:外设部件互联高速通道(Periphera1.ComponentInterconnectExpress)QEMV;快速模拟器(QuickEMU1.ator)QoS:服务质fit(Qua1.ityofService)USB:通用申行总(Universa1.Seria1.Bus)VnOr虚拟功能输入/输出(Virtua1.FunctionInputOutput)W:虚拟机(Virtua1.Machine)VMX:虚拟机扩展(Virtua1.MachineExtension)A【计算设备虚拟化与调度的架构见图I.R【计算虚拟化为A1.物理计算资就提供特定的衣示形式.虚拟化方案包含对基于CPU、GPtUNPU,FPGA等物理AI加速卡的虚拟化.(多种虚拟化方案通过统一的接入加件形成(界构)资源池,以-效的方式使用A1.物理计兑资源,调度器根据A1.fr:务和资源池的情况,选择若干虚拟化的A1.计免实例.分配并执行特定任务.运维监控实现对A1.计算实例、A1.物理计算资源注1;或畿框部分不同于本支件标准化的总嘀“注2:FpGA的自奴化方案.FPGA与(TU的混i架构.注3:1个A1.应用可被分解为若干个A1.计算任务.下发给词收?8,图1A1.计算设备虚拟化与调度架构6计算设备虚拟化技术要求6.1 叔述计尊设备虚拟化技术是一种计算资源管理的方法,切分、冏间或整合含有各类型加速渊的不同A1.加速卡,使其执行AI计算任务,以提高计算资源利用率.注:本文件现定计克改备或拟化技术不对网络、存储等其也卷理费源提出要求,但对i1.算资源与其他侥俎的协同对接提出要求.6.2 基本要求6.3 2.1A1.加速卡虚拟化AI加速卡的虚拟化,包含以下要求:a)应支持单个A1.加速卡址拟化为多个计算实例;b)宜支持多个A1.加速卡虚拟成单个计算实例:c)计算实例应能在虚拟机或容器中执行计算任务:d)宜支持单个A1.加速卡的算力仍离:C)计萼实例应能被计算设备谢用。虚拟化组件或系统.宜实现下列对计算实例的监控功能,包括:a)资源(含计算资源)利用率监测:b)尊子执行时延统计:c)计算实例带宽利用率监测:d)计算实例的性能波动(见9.1.4.4>测:e)虚拟化后,A1.加速卡的计算能力损耗统计:f)计算实例运行时长统计,6.2.3隔离性虚拟化组件或系统的隔离性包含如下要求;a)故障隔声,应符合以下要求:1)计算实例内的单点故障信息只上报其所属的虚拟机或容器及虚拟化管理系统:2)支持多个计算实例运行互不干扰;3)提供调用、返回特定计算实例的业务故障:-1)支持计算实例获知其所依赖物理设怖的单点故障,b)性能隔离,即特定用户使用计算资源的性能.不被并发执行的其他用户的任务影响.而出现下降的情况:c)安全隔围,技能实现下列功能.包含但不限于:1)防止仿日:2)防止篡改;3)防止信息泄露:4)防止拒绝服务攻击:5)防止权限提升;6)防止抵赖,6.24重配置虚拟化组件或系统,实现在多用户和动态任务情况下的计算资源由配词,以提Isi系统整体性能,符合以下要求:a)应为单个AI任务的独立运行,实现QoS服务历量机制:b)应为多个A1.任务的同时运行,实现资源获得公平性机制:注;公平性指的是相向优先级的不向用户和程序时F计©资谅”为同样的使用权.O应为AIfE务的动态负载特性或资源可变特性要求,实现资源双用机制(如分时或用或分区更用方宜能与下列机制现过程配合使用,包含但不限干:1)高可用集群:2)倒战均衡,即分配特定的业务(网络服务、网络流量等)给多台网络设备(包括股务器、防火墙等或多条链路:3)内存复用,方式包括内存气泡、内存置换、内存共享等:4)CPU、内存、AI加速处理器等的扩容。e)宜支持吉iAI计算加速卡间互联信息.6.25资源抽象虚拟化与调度系统的资源抽象,符合以下要求:a)计算实例应支持执行以卜计算,包括但不仅限于:D完整的卷积计算:2)完整的向JIU十算:3)完整的标注计算:4)数据传输、交换和格式转换.b)计并实例应包含以下部件并作为调暧依据:D计算部件:2)存储部件,如慑存、内存等;3)数据通信部件.C)1个计算实例可对应单台或多台A1.计算设备的全部物理资源或部分物理资源:<1)当虚拟出多个计算实例时,单A1.加速K所含的硬件资源应能被映射为多个A1.加速乱包含对处埋器、内存等费源的切分,映射为不同的谀备并受饺件宽源总数的限制:。)事件、标识和任务及相关机制以软件实现时,应不受硬件资源总数的限制.6.2.6协调性A【任务的计舞图的任务抽象与资源抽象应具需协调性,符合如下要求:注:A1.计算图用有向图我示.I个方向图由点和边构成,一示神经网络的计肆流程,是一种逻羯流图,在硬件上转换为物理流图.a)AI任务数据流图中的资源抽象包括;1)有向图中的点表示计算:2)有向图中的边表示数据依赖;3)数据流连接线以外出箭头表示将数据写入数据存谛:1)数据流连接践以输入箭头表示从数据存储中读取数据,b)应考虑用于执行数据流图的虚拟设备:O计笄流应考虑如下约束:1)计算流的同步,即一个计算流中的任务依赖于另一个计算流中的任务;2)计算流可并行处理,受硬件资源约束.6. 27计算实例要求7. 2.7.1计算实例表示计算实例应由以下属性表示:a>计算实例规格,包含:1)计算能力,如存吐率、有效计算能力、H.OPS等:2)内存空间,如片上内存等:3)数据传输率,如上下行带宽;4)计算精度,如FP1.6、INre等.b)计算实例拓扑,包含:1)计算实例所属的A1.加速卡:2)加速卡所M的服务器及其在服务器中的位置:3)服务器所属的集群,及其在集群中的位算,c)计算实例状态包含:1)使用中:计算实例当前正在执行相关的计算仔务:2)可用:当前的计算实例整体或其部分,处于空闲状态:3)不可用:当前计算实例已被占用或损坏.无法执行相关任务.6.2.7.2计算实例管理6.2.7.2.1I计算设备虚拟化系统或组件,提供如下功旎:a)应支持在以下情况更新货源池:1)加入新的计算实例:2)计算实例被择放:3)空闲计算实例被占用:4)计算实例进入等待队列:5)计算实例被损坏;6)损坏的计算实例修史。b)堆个AI加速卡的虚拟化,宜通过接口调用满足如下功能:1)创建的A1.虚拟计算资源,关联其归属的父设符(A1.虚拟计算资源所在的物理A1.加速器),并提供相关的杳询,包括但不限于:PythOn编程接口、SySfS接口、或命令:2)对计算实例的操作、控制接口:3)提供可与接口,用于埴入创建虚拟化节点的必要信息;-1)设备描述估息荻取接口:5)虚拟化计算节点的驱动接口信恩(物动API):6)指向每个虚拟化计算节点的软擅接.6.2.7.22AI计算设备虚拟化系统或组件应支持计算资源的删除与恢域,包含如下要求:a>计算资源的非物理删除;b)恢复已删除的资源(如汁券资源的更新发现).6.2.7.2.3I计以设备虚拟化系统或组件成支持提供接口获取如下实例信息:a)计算能力的股控和统计信息(如资源调度层所管理的物理计算能力的总和):b)计尊实例所在的A1.加速卡信息:c)计算实例的规格信息,包括内存、可观测带宽等;d)计算实例的算子时延剖析、时延统计信息.6.2.7.2.4AI计算设虚拟化系统或组件,应支持计算资源分的,包括:a)单AI加速器的分配:b)多AI加速器的祭体原子分配(全部分充成功,或全部都分配失败。6.2.7.2.51.计算设备虚拟化系统或组件.应支持计算实例的回收.包括:a)一次回收单个计算实例;b)一次回收多个计算实例,且保证操作的原子性.6.3扩展要求6.3.1CPU虚拟化DetCPf虚拟化分为基于软件的虚拟化和硬件辅助的虚拟化.CPU般ff1.于推理任务.虚拟机可使用多个CMJ计算实例,这些计算实例可源于同一个物理CHJ或多个物理CPU的虚拟化CPU虚拟化的参考架构见A.2.2) CPU计算实例CP虚拟化系统或组件,应符合以下要求;a)CPI;计算实例能完成机器学习推理任务:b)悭避免宿主机上CPV资源的浪责;c)支持CPU计算实例的动态横向弹性伸缩.为虚拟机添加CPI;计算实例:d)支持(P1.J计算实例亲和性配置:)CP1.计算实例的规格,应使用以下指标衡量:1)处理海内核数:2)好个内核的线程数:3) CPU划分的比例:4)内存容Sb5)馈存容量。6.3.2GPU虚化1) 通则GPU的虚拟化,应符合如下要求:a)支持计算能力按需使用:b)支持计算能力动态调用和择放.2) GPU计算实例GP1.废拟化系统或组件,应符合以下要求:a)支持其非虚拟化版本能执行的机洪学习算法:b)通过时分熨用或空分复用的方式得到计豫实例:C)GPU计算实例.包含以下部件:1)计算部件:执行计算的单元,即流处理器,完成整型和浮点蟹计算:2)视顼涮解码部件:3)内存,包括单不限干DDR.GDDR和HBM(容量单位是MB或GB,带宽单位是GBs):-1)各级缓存(容玳单位是MB或GB,带宽单位是GBs);5)共享存储.d)支持负载均衡:e)GPf计算实例的规格,应使用以下指标衡量:1)计算能力(单位如:OPSF1.OPS吞吐率算力比例):2)视频编解码能力(单位如:】路1080P,3OFPS);3)显存容盘(单位如:MBGB):4)缓存容量(单位如:MH>:5)网络宽带和收发包吞吐率(GPU间)。6.3.3NPU阂以化n,w图2NPU虚拟化架构图N阳的虚拟化架构见图2,参考方案见A.1.NPU的虚拟化组件或系统,符合以下要求:a)应能根据计算fE务需饕选择合适的虚拟化调度方案,包括:1)将A1.加速卡虚拟化为多个NPU计算实例,挂我至虚拟机:2)将A1.加速卡虚拟化为多个NPU计算实例,挂栽至容器;3)将A1.加速卡虚拟化为多个NP1.计算实例,挂载至虚拟机,在虚拟机内再将NP1.i计芽实例挂SfcJiJ容福4)将A1.加速K咱通WC到虚拟机,花虚拟机内划分、也计算实例,再挂载到虚拟机内的容器.b>宜具备NPU计算QOS控制机制:c)NPI;实例.应提供如下计算屈性:1)张量计算能力,如张量计算单元个数;2)向量、标盘等通用汁匏能力,如通用计灯通元个数协处理器核的个数:3)如具备视域图像预处理模块,应提供相关的计算能力属性,如视菽解利等计算核个数。(1)W1.实例,应提供内存容fit<*n<i:GB)作为存储展性:c)宜支持按A1.任务的计算录,动态调整计徵实例规格,2) NPU计算实例NT计算实例,应符合以下要求:a)提供矩阵娓的计算部件.执行卷积与全连接的计算:1)具有执行矩阵计算的计算核心;2)具备援存电阵分别存储中间过程数据和结果数据:3)具备数据寄存器,寄存矩阵运算的过程数据与结果,b)提供向埴运算的部件,以执行池化、激活函数以及批正则化等运蚌:D执行向量计匏的胞元:2)相关的存储单元。c)提供控制和标房运算的汁匏部件,包含:1)执行标盘运算的单元:2)通用寄存器:3)专用寄存器。d)提供数据的存谛部件:e)提供数据通路部件,保证计匏部件与存储图件之间的数据供应:f)NPU计算实例能执行并完成A1.推理和训练任务:g>NPt计算实例的规格,用以下指标衡V:1)计算能力(单位:F1.OpS/OPS/吞吐率);2)内存容量(单位:GB>:3) 存(单位:KB/。):4) 剩余带宽(单位:GB/S1°6.3.4FPGA虚拟化1) 通剜FPGA虚拟化是在时间和空间维度上,对多个FPGA的各类资源的调度与使用.FPGA的虚拟化,应符合以下要求:a>支持深度学习加速,并具备性能隔离特性;b)支挣多路计算:c>支持FPGAOver1.ay,在FpGR硬件之上,形成虚拟可编程架构,支持上层使用:d)支持部分可重构.将FPGR划分为多个PPGA计算实例:e)支持FPGA动态重构和配置。2) FPGA计算实例FPGA计算实例,应符合以下要求:a)支持其非虚拟化版本能执行的机零学习任务:b)为一个或多个动态重构的FPCA区域:O对特定FPGA计算实例实施动态重何时,其他运行不受影响:d)提供可重构区域的划分机制,避免FPGA资海的空置和浪费:C)FPGA计算实例规格,由以下指标衡量:1)计算能力(如:OPS/吞吐率):2)延迟:3) JfJffis4)艮活度.7计算资源调度技术要求7.1 剧述7.1.1 任务流程框架计算资源调度的任务流程见图3,包含以下步骤:1)用户提出训练或推理请求,作为AI任务放入任务池:2)谓傻君从AI任务池中取任务,根据任务的规格(所需计匏能力、内存等)和可用A1.加速卡,申请符合A1.任务要求的计算实例:3)调度器时所有的异构计免资源和计算实例实施监控,完成任芬的冏度.图3A1.计算任务调度流程框鬻1.1.2 训练场景训拣场景中.任务池中含行训练任务请求.训练任务的吞吐量较大时.对的AI加速卡的资源利川效率较高。单训练任务对RI加速卡资源的占用情况包括以下情形:a)在单AI加速卡上运行,该卡资源被全部占用:b)在维AI加速卡上运行,该卡资源未被全部占用:O在多A1.加速R上运行,全部加速R资源均被占用:d)在多A1.加速卡上运行,部分加速卡存在空闲资源.1.1.3 推理场景推理任务对A1.计算单元的占用,包含如下情形:a)模型体量较小,能容纳于单K或明片内存时:1)推理衙要异构的AI计算资源,但大多数场景吞吐盘较小,资源使用率较低;2)计算资源的调度而细粒度划分(如以单卡中的块或片为调度单位,使多推理任务共用特定it-W资源,即单芯片多任务模式):3)部署时根据许算fF:务申请所需计徵资源,优先在单芯片上安排推理仟务,使单芯片满载,注:语找指的是对特定计力设备的计力能力仝部用嘘拟化得到计算实例.b)模型体量较大,不能容纳于单卡或单片内存时:1)模型所含多数汆多,模型结构复杂,任务吞吐M大,拆分为多个子模型:2)数据搬运在单芯片内数据撤运速度或快,路卡调度影响计蚌速度;3)计算资源的谓度以卡为单位分配:1)调度器将推理任务按照模皇体量实施拆分;5)在第A1.加速卡上优先安排同一子模型.计算完成后则分配剁余于模型给卡计算.7.2 功能要求调度器应实现下列功能;a时整R1.加速卡(处理器的调度:b)对池化的多AI加速卡的圜度:c)对单N加速卡上计算单元的调度:d)对单A1.加速卡施拟化所得的多计算实例的调度:e)对多A1.加速卡中的多个计算电元的调度;f)对多个计算单元或多个A1.加速卡的调度,应保证调度操作的原子性:g)任务拆分,当同一任务包含的多个模型时,能将不同模型分期给不同计算实例,保证全局资源利用率最高:h)模型切换,在同一计算实例上,在某模型运行完成时,能换入另一个模型并运行:i)负栽均衡,在有剩余计算节点时,能分配任务,避免单卡、单片或单块的负或过大。7.3 性能优化要求调度器性旎优化符合以下要求:a)应能采券、分析和汇总性能数据,涵凝以下设备,包含但不限于:控制CpU、调度刑、A1.加速器、外用设爵、内行等:b)对多卡阿度,宜能在诩度过程中参考集合通信组件的属性和状态:c)宜提供RI任务在异构计蚌设备上的系统性能分析工具。7.4 调度策略要求调度等调度策略亢考虑如下的因泰:a)使全局费源的平均利用率最高:b)调度的计算资源涉及多个AI加速器时,根据上的拓扑来制定调度策略(如亲和性调度):c支持用户自定义园位.7.5 接口要求7.5.1 接口类型虚拟化接口包括:a调度器与(TU、GPU,FPGA.NPU等计算资源之间的接口;b)调度器与A1.应用中机器学习框架的接口.7.5.2 接口描述7.5.3 2.1计算实例创建计算实例创建应符合表1列出的接口要求:表1计算实例创建相关接口接口算弓名称功能语义描逑参数输入/蛉出可选/必选a)实例我示模板iSt虚幻化切分得到的计算实例计灯优力1.Kft计算核心*()输入必选内存容Ik输入必选虚拟化时所包含的数字视觉预处理极块檎入可选b)创珑计算实例按照需求,Ifi定规格.创建计算实例设名1D输入必选芯片ID输入必选实例衣示模板输入必选需要创建的虚拟谕备”输入必选C)设'虚拟化模式在物理机执t.设置计算女例的模式5SSHJ>适M于计打实例拄找到冬器输入必选Ifi拟机模式I适用TitK实例拄我到墟拟机粕入-V:'17.52.2计算实例监控计算实例监控应符合:a)获取单个物理AI加速K的信息,见表2:表2获取加速卡信息名称功健语义描述警Ji除人/输出可选/必选设备俏息获取获取服个物理A1.加速卡信息次拟化石可用计算实例最大致培输出必选已在执行计算任务的计算实例数麻输出必选资源占用情况含执行任务的计尊实例资源占比和剌余可虚拉化的费淞占比输出必选b)获取计算实例规格,接口描述见衣3,柒取的娓格佶息满足&4.1和6.5.1.2e),6.5.2.2h),6.5.3.2g)或6.5.4.2e)的要求:表3获取计算实例规格名称功饯谙义描述参政输入/输出可选/必选硬取计算实例规格快取计和实例的规格信息实例规格输出必选c)获取计算实例状态,接”描述见衣4,状态展性要求见6.4.1:表4获取计算实例状态名称功能语义描述输入/输出nT12i援取计算实例状怎获取计算实例的状态实例状态输出必选8运维监控技术要求8.1A1.想速卡监控AI加途卡监控符合以下要求:a)应能监控A1.加速卡的下列属性:D计算能力:2)带宽:3)内存.b)应能监控并返回计算实例的卜列统计信息:D计算实例的总数:2)可用的计算实例数;3)占用的计算实例数。c)应能监控单A1.加速卡上各计算实例的性能偏移的情况:注:对单M加速卡,金拟2'、工正赘数)个相同规格的计算实例时,每个实例的参考性能是1/N,实京性能与参有性能的绝对值良性僚偏移,d)应能监控返回A1.加速卡的状态:D资源占用比例:2)可用比例:3)是否损坏。e)应能监控返I可以下关于A1.任务的信恩:1)训练任务或推理任务的吞吐景;2)训练任务或推理任务占用的计算实例信息,以及计算实例所处的I加速卡.8.2 计算实例监控计算实例监控符合以下要求:a)支持时计算实例状态的监控(见6.6.2.2):b)支持对计切实例的异常检刈.并对用户开放定制化的检测项:c>支持计算实例的异常.警告,并支持用户自定义警告的冏值和警告的方式:d>支对计算实例的日志收集、分析和可视化展示的功能.8.3 A1.任务监控AI任务通过系统性能分析工具监控,工具宜提供系统状态预测或监控信息,包括但不限于:a)时序信息图方式,以时间线的形式展示AIfE务相关性能信思:1)计算图信息:计算图执行时间、推理时间、图像等数据的预处理时间:2)算子的执行时间:单算子执行起止时间、电口于耗时:3)每个战程运行时AP1.的时序信息:4) AI计算单元上内核函数的运行时序信息:5)任务调度的任务运行时序信息。b)坡件视图方式,屣示数据传输的带宽信息,可帮助用户或调度器找出数据处理和传输的瓶颈.如读写带宽过低可能是獴子a写的数据搬运过程有何时;C)A1.处理器函数和CPV函数视图:D采集各形式处理器上的热点函数(执行频率较高的函数:2)展示的信息应包含但不限于:模块名'的数名'调用堆栈、指令数、指令数耗时占比、对陶子项的循环次数等.d)概括性视图,汇总采集的信息并展示,包含但不限于:D性能数据采集起止时间及耗时:2)服务器性能加木信息,包括操作系统和CP1.J信息;3)加速设得信息(包含GPU、NP1.或FPGA),如协处理CPU的核数、A1.计算单元数盘等:4)内存及高徼缓存信息,即整个果集过程中内存读写带宽的平均值:5) CPU的利用率:6)系蛟信息,包含但不限于:系统总内存、空闲空间'内存缓冲区大小、高速缓神存储器使用I匕共享内存、虚拟内存限僧等:7)捽制CP1.的信息,包括但不限于:运行的函数名称、此函数关联的模块、此函数运行的时钟周期数、虚拟环境中操作系统消耗占比、内核态进程时长占比、空闲状态时长占比等;1.1.1 A1.计算单元的信息:9)算子统计信息.包括但不限于:算子的个数.名称、耗时、对内的起止调度时间、输入输出张出的内存大小、权武大小等:10)图像视频任务相关信息,包括但不限干:任务的时间、任务的帧数等.e>模型的数据输入、A1.计算任务(推理或训练、数据输出的耗时。8.4日志监控1.1.2 日志收集级别运维监控过程应收集以下锻别的日志:a)提供一殷级别错误的日志(ERROR):1)非预期的数据或打件:2)影响面较大但是内部模块可处理的错误;3)限制在模块内的错误:4)对其他模块有影响但较轻微的错误,如统计任务创建失败:5)引起调用失败的错误。b)提供警告级别的日志(WARX1.NG),如设备状态与段期不一致,但不影响系统的运行.c)提供正常级别的门忐(INF3,设在正常运行的信息;d)提供调式线别日志(DEBIG).记录调式信息,协助开发维护人员定位向盅:e)提供关键事件的日志(EVENT),如:1)整网运算启动、完成和弁常终止:2)内存耗尽:3)设法温度出出正常Hi伯。1.1.3 日志记录信息日志的记录,应包含以下信息:a)日志的级别:b)产生日志的模块名称;O进程标识符:d)进程名称;0)日志打印的时间:f)各模块日志内容.1.1.4 日志处理日志的处理,应符合以下要求:a)支持加速设符的管理,如新增、刷除、修改等:b)对用户,提供日志的查询按关健字搜索H志内容:C)提供清除显示的功能:d)提供和日志下救和保存的功能.9测试方法9.1 虚拟化测试9.1.1 性能隔离测试9.1.1.1 概述性能隔离测试应计收性能的差,即实际性能与理论性能之差的绝对伯,性能指标为吞吐率,示例:户或任务独占mAI加速卡时,训练或排理的性能是P,力治H比实例分配25%的i克侥凶时,其性能理论上应该为P/4.也Jtt化方案应区可能使计舞实例的实际计算能力接近律诙值.但不小于理论班的幅度)糖大.性能隔悉数!RtS差.用实际伙P”理论U1.p的偏冷来衡成性能隔周的效果.注I,KU加速卡通过应拟化切分为多计算实例时,各实例应能分也给多个用户使用,对任意AI计算任务.姆个计算实例按需分配,且同一加速R上的各计算实例的性侵应不相互干扰.9.1.1.2 测试方法性能隔声测试应按以下规则实施:a)选取特定RI任务,实施测试:b)测籽基准性能作为理论伯(见9.1.1.3a>>:c)对特定A1.任务,分配单A1.加速卡一定比例(见9.I.1.3b)'9.1.1.3e)的计匏资源:注:比例数值在Jt体测试时确定.但对向喇试批次中不屏1.加速卜的虚拟化测试,应保挣ft.d)设定单A1.加速器匕所执行的最大任务数fftn(n为正整数),对该任务使用已分配的计算资源.为剩余联1个任务分配剩余的计算资源:e>按9.1.1.1计算性能偏差:f>性能隔窗测试,按下列因素排列组合,确定模式:1)训练或推理:2)单一模型或多模型负载:3)是否涌我。9.1.1.3 测试负载性能隔周测试倒载包含:a)基准性能:单模型负段独占单AI加速卡(无虚拟化),测得基准性能,负皎见表5:表5基准负裁测试测试项序号I模型分配资源占比IMrjbi1.eNetI(Iert(无虚拟化)ImaUeNS20122ResNetoOo(无自Itt化)InageNet201.23VGGJ610<(无虚拟化)InOg幡M20124InrcptinnV3100T(无康拟化)IirvIgEot2012b)的模型满就:将单I加速卡按比例虚拟化获得多个计算实例.每个计算实例运行相同的A1.任务,负软见去6:表6单模型满鼓训练测试项序号KtX!负较个救JftiKai分配比翎IMobi1.eNet2I11ageNet2012122M(>hiIcNet41.mgcNrt20121:12:43ResNetoOJk*Ne20121I4ResNetoO4I11geNet20121:12:45Inceptio11V32InWggNZ2012161.nr<ptinV341.(mgcNrt20121:12:47YGGI62InageNet20121I8VGG164IMNZ20121:12:4c)多模型涌我:将单A1.加速卡按比例虚拟化获得笠个计算实例,俅个计算实例运行不同的模型,负毅见表7:表7多模型满载训练期试项序号模里"分配H灯实例占比模型2/分配计算实例占比模模切分分计让实例的占比1W<>hiIcNnt/25%Ra淄CtSO/25、VGG16501.11ngcNrt20122Mobi1.eNetZSO1.Mbi1.eMei25*VGGI6/253IuaeNe20123MObinNeI/25、Resnet50/25%IncetionV350%1.naeNet2012d)多模型非湎贰;将单A1.加速I:按比例也拟化获褥多个计算实例.但留有空余,好个计蟀实例运行不同的模型,负载见表7:e)单模型非演皴测试:将单A1.加速卡按比例虚拟化获得多个计算实例,但W有空余,每个计切实例运行相同的模型,负载见表8.表8单模型非漏裁训练测试项字号模型负蜕个教数据妪分刖比例1A*bi1.et2InagR%12012漏.50%2Mobi1.eNet3Inage>t201212.5*.12.9%.25%3ResNetSO2IMgOW1.201225,50%4RexNetSO3IImgdt201212.5%.125425%5naP1.io1.n'321.nage)1.2O12缈,50%6In<rcptinV341.naet201212.5*.12.9%,25%7VGGI621.nfieNe1.2O12绛50%8VGG64IrWgGNe1.23212.5%,J2.5.2S9.1.2 任务动态扩展测试9.1.2.1 概述实际应川场景中任务可能动态添加(任