YD_T 4390-2023 AI服务器及能力平台测试方法.docx
ICS33.(M0.40CCSW2YD中华人民共和通信行业标准YD/T43902023AI服务器及能力平台测试方法TestspecificationsforAIserversandcapabi1.ityp1.atforms2023-11-01实施2023-07-28发布中华人民共和国工业和信息化部发布目次前三IIII范困I2规范性引用文件I3术谱、定义和缩略谱13.1 术语和定义13.2 缩略泌24测试环境35 A1.通用平台测试45.1 平台技术架构45.2 数据集及预处理类75.3 数据标注业务85.4 蟆型开发业务95.5 模型推理业务I5.6 深度学习工具类125.7 运智管理业务145.8 平台安全性185.9 平台可靠性185.10 平台扩展性205.11 通用A1.能力216 A1.限务器测试226.1 产品信息检脸226.2 菸本限置检骁226.3 可靠性测试296.4 性能测试296.5 能耗测试30本文件按照GB,T1.1-2020标准化工作导则笫】部分:标准化文件的结构和起草规的规定内容起草.请注意本文件的某些内容可能涉及专利.本文件的发布机构不承担识别这些专利的货任.本文件由中国通信标准化物会提出并归口.本文件起草单位:中国信总通信研究院、中国电信集团有限公司、北京百度网讯科技有限公司。本文件主要起草人:郭亮、高飞、赵继壮、李士保、陈子开、谢丽娜、李洁、王峰、郑超、程帅、康亚京、张学聪、王少鹏、盛凯、芦帅、郑常至'贾冠一'张巧月.AI服务器及能力平台测试方法1范围本文件规定了AI服务战及其所承致的A1.能力平台的测试方法,主要包括服务器和平台两个方面.服务器方面包含对A1.服务器基本配置检验、功能、性能、可靠性、能耗等方面的测试方法:平台方面主要包含对技术架构、功能、安全性、可靠性等方面的测试方法。本文件适用于对R1.服芬器及配套A1.能力平台的测试选型.2规范性引用文件本文件没有规范性引用文件。3术语、定义和1语3.1 术语和定义卜列术语、定义适用于本文件。3.1.1模型mode1.训练完的结果文件和配置文件集合(包括网络结构、参数等),3.1.2引擎engine将模型部署为栖定服务时,模型可进行推理的容器环境.3.1.3能力abi1.ity模型部署完成后提供稔定访问的服务,能力部署时包括模31和引繁两部分.注:业务层需提阳伸洲功能,对各能力有版本、调用权限的管理。3.1.4数据9(处理datapreprocessing对原始数据进行必要的清理、集成、转换、齿散和规约等一系列的处理工作.注:处理有多种方法,例如数据清理、数据集成、数据交换、数据方的等,3.16特征工程featurecn&inccring本质是一项工程活动,目的是最大程质地从原始数据中提取特征以供疗法和模型使用.3.1.6关联分析associationana1.ysis通过研究已经产生的数据,找出存在于项目集合之间的关联模式,在具备关联性情况下通过其中一个项集对另外一个项集进行预测。3.1.7敷据标注dataannotations数据标注员借助标注工具,对图像、文本、谙音、视频等数据进行拉框、描点、转写、语义分割等操作,以产出适合机器学习数据集的过程。注:通常数据标注的类型包括图像标注、语音标注、文本僦也视颇标注等种类,标记的小本形式由质i洵枢、3D国框、文本转录、图像打点、目标物体轮喊等.3.1.8超参数hyperparameter在机器学习中,超参数是指在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据,通常情况下,需要对超参数进行优化,给学习机选择一蛆最优侬参数,以提高学习的性能和效果.3.1.9租户tenant可根据自身需求对租用的系统实例进行个性化配置的主体,且保证同一平分下的数据隔离.3.2 缩略语下列缩略语适用于本文件AI人工智能Artificia1.Inte1.1.igenceBIOS刘本输入愉出系统BasicInputOutputSystemBMC基板管理控制器BaseboardManagementContro1.1.erHBA主机总线适配器H<>s1.BusAdapterIPMi智能型平台管理接口Inte1.1.igentP1.aifbimManageineniInterfaceKVM键盘、显示涔、以标KeyboaniVideoMouseOC:R光学字符识别Optica1.CharacterRecognitionPCIE商速外设互联标准Periphera1.ComponentIn1.erconncc1.ExpressRAID独立磁盘冗余阵列RedUndantArrayOf1.ndependcntDisksSAS一行连接SCSI接口Seria1.AttachedSCSISA1.A小行高级技术附件Seria1.AdvancedTechno1.ogyAttachmentSNMP简单网络管理生议Simp1.eNetworkManageinen1.Protixro1.SSD同态硬盘So1.idStateDrives4满试环境A1.HIi务湍及能力平价参考配置要求见表I.«1A1.务及能力7自KEH求分类GPV服务器要求配置Ia台)K2(1)应用场景深度学习瑞线训缥场景在级推理场景CPU单颗CTt核数12«12核主频2.3(GHz)2.3(GHZ)数量2个2个内存32GB32GB内存娱率2400MHz24丽Z类型DDR4DDR4r12个12个硬盐1(系统就)480GB180GB硬盘1硬Ia咨数SSD(企业级)SSD(企业级)接口类型ST(6Gbits)SAT(6Gbits)ftft2个2个硬盘Iraid要求IUIDO,RR1.DOJ硬1»2(数据盘)1.92T1.92T硬盘2SSD(企业级)SSD(企业级)接口类型SjT(6Gbits)SAT(6Cbits)6个6个硬速2raid要求RAIDO11,5.6,KM支持电池保护或电容保护方案,提供掉电保护)RA1.DOJ,5,6,10(支柠电池保护或电容保护方案,提供掉电保护)缓存X2G接口类型SAS(12Gbits)SAS<12Gbits>GPU卡24G24G«1A1.展务及力¥台TEU*分类GFt服务器要求配-M1.-)配置2(1台)应用场景深度学习点歧训嫁场屋在线推理场景GPU卡数景8个8个CPU与GPU超比1:8IMPae拓扑管理网卡xiPMiti.板栽)IX1.PM1.(电口,板拗管理W卡数盘I个1个扩展要求1内存牯梏内存插梏扩爬Sfrt2124城加是否热物城½是或他电源也置220VAa白金级以上电理模块,满配.N+N冗余220VAC,白金级以上电源模块.商用.N+N冗余风扇配置满配,支持风扇N+I冗余满闿,支持风审NT冗余USB接口不少于2个不少于2个Jt架要求上架套件上架睿件5A1.通用平台测试5.1 平台技术渠构&1.1平台技术架(求用例名称平台技术架构要求预置条件记录系统部X过程,并在部署全部完成后进行校杳测试步碟1)检杳是否系统上要组件均运行于集群之上,井H资潴两改找为K8S扩剧两度器非默认调度器.2)检查平台是否具径开放性奥构,提供业务的REsTAP1.控制搂口,支持AI组件的集成,3)检查平台监控数据库是否支持指标监控系统,例如PrcaCthCUS等.1)检查平台是否支持集中H志系统,例如E1.K或EFK等预期结果D步骤I可登录到K8SdHshh3rd或通过kubtI杼到容器化运行的平台调慢器组件、门户组件、标注组件、模型训练、模型管理、模型服务的功能扭件,2)步舞2中可通过restAP1.客户端成功创建训炼和推理任务.杳询任务执行状态,并在nb门户中看到这些通过API创建的任务.3)步磔3中可在指标监控系统中实时君列系统9控数据,.1)步骤,1中可在集中H志系统中实时对川户日志和系统H志进行搜索通过标点饮期结果全都满足5.1.2资源EM*Binpack埠法Jf1.fJI名稗费流管理编排商-BinPaCkJr法预置条件GPIJ集桶无运行中的训统作业测试步骤D在模型训涿页面按期序提交I个通机Ik宽源需求的任务.2)在GPU联务耦的节点监控页面杳看两个物理节点各自承我的任务统计预期结果步骤2中可以赤到一个节点上有,1个作业,另一个节点上有0个作业通过标准:预期结果全部满足5.1.3潮”9NMHFmk算於用例名称资源管理编柞器-排队算法预置条件/测试步臊D设置项目喷源配制为4张GPtJ卡.2项目P用户U1.提交4卡任务T1.3)恃11成功运行时,项目P用户U2提交2卡任务T2.4)防后在界面停止T1.,观察T2预期结果D步骅3平台界而显示T2囚资源不足处于挎队等待状态.2步骤1防着TI结束运行新放资源,T2获取以海自动进入运行状态通过标准预期结果全部满足5.1.4冼ft算法用例名称资源管理承排器-优先级算法但粗条件/测试加舞在租户空间内,设定四个不同等级的项目.并同时启动基于GpV的任务HU切结果D平台界面支持设定项目不同S1.A等汲.2)在资源不足的情况下.高优先级的项H优先执行通过林准预期结果全部演足5.1.5业务流利副精|用例名称业务潦程褊排牌预置条件/测试步歌I)Het系统是否具备深度学习端到端业务流程编执器.2)直看前水线弓I整是否可以统一编建深度学习各个流程限期结果1)步骤1可在后台看到业务编排正实例.2)步骤2编扑器可以对数据饮处理、校电训练进行条龙流程连接,支持各个洵程容器间输入就出数据集的自动传递.3)揄排器罐同时支持按照时间进行周JW调度.4)编加器提供AP1.投创接口通过标准预期结果全部满足5.1.6m*Jf1.例名称镜像仓库预置条件测试步磔I)妁过平台贝面炎后摊像仓库中H1.置的饰像内容,2)通过平台端写、构比钺愧.发布镜像到德像仓库预期结果D步舞I中项目人员可以看到系统公共境像和私有镜像.至少包括镜像名称.标签.版本、下敕次数、创建时何、悔像大小.2)步骤2中平台以M页形式提供编辑功能,提交后由乎台后台执行构世过和通过标准但期站梁全部满足5.1.7防同开发会事用例幺称协同开发仓库预置条件/测试步骤1)检查平台是否具有git仓麻.2校过平台模型开发流程中代玛是否可进行管控预期结果D平台中部箸有git仓麻网元.2在平台预置开发工R中可以在页面提交代班,进行代码版本技制.3)可在平台统一页面看到所有用户提交的代玛和版本地过标准预期结果全部酒足5.1.8OJU切片ifi件用例名称GPVW片姐件预置条件/测试步骤检杳平台在训练任务迎推理任务创建流程中是否共名把】张GPu卡切分为4个虚拟GHJ并行运行,1个任务的功位依期结果1)在创建训携任务或推理任务Wrb界面流程中,界面使输入为此任务分配的GPIJ资源为单张物理卡25%的资源,2)在系统监控界而可以看到的生物理卡同时运行了4个训i或推理任务通过标府饮期结果全都满足5.25.2.1mmra用例名称数据集首理预置条件测试步骤D拴侵平台是否支持数据隔点.2拴住平台是否支持数据共察,3)校行平台是否支持数据在沛程中的传递.力依杳平台是否支持大文件上传下载.5)检查平台是否支柠数据史的收管理预期结果D步骤I中应支持按照租户和项目进行数据访问的隔离,2)步骤2中应支持S项目各个成员间数据史的共享,支持过区不同攻11间数据集的共享.3)步舞3中应支持的处理、标注、训统环节各个业务流程间数据的自动化传递.力步骤4中应支持2GB以上大文件的打包-.1.5)步骤5应支持业务人员和管理员财所加数据集的增删Afi通过标准预期结果全部涵足5.2.2KM用例名称数据预处理Ri徨条件赛试步IS检查平台深度学习前双淘程中是否具备以下功能;势征触换,数据肾推、特征提取、珞征衍生但期希果成功验i£在平台Web网页上提供的以下功位.D特证技涣,支持数据归一化、标准化、分箱,类型转换。2)数抠管维,可通过对应的映射算法招高维空间中的数据点映射到低维度的空间中.3)特征提取:能帔按照给定的定义成功提取特征.。特征衍生:将多个特征祖合或衍生,成为新的特征.投过持证工程处理的数据可在模型训练页面液程中引用狗通道标准预期结果全部满足5.2.3WtmSt用例名称预处理调度预置条件府备修安使处理的数据奥测试步骤D顶口人员通过以向创建指定到CPU集"中运行的任务TI和T2.T1中运行对数据案进行规范化的代码,T2中运行对标注数据耍图片进行转换的代码.2)当任务T1f束后,在CPU集群中提交任务T3.使用任务T1.的结果嫁出路径.3)当任务T2结束后,在标注项目背理中可以送样T2处理过后的数据集预期结果1)步骤1中TI提交时WBb页面可指定CptJ核数利内存入小,可通过柒"的控制台找到该任务容JS所在物理机,并嘀认该伪理机非GPWK务溜.2)步辖2中项目人员在其数榭集管理页面可以成功看到T1.的拓果轮I1.1.,并且在T3任务提交页面可以指定该路径作为数据集路径“3步骤3中项U人房在其数据集笆理页面可以成功看到T2的结果验出,并H在标注项目管理页面可以指定该路径作为标注任务数据奥通过标准依期结果全部满足5.3敷瞰注业务用例名称标注顼日管理预'押条件测试步骤依宜平台标注攻目管理和流程管理功能预期结果1)平台至少支持按标注员.审核员、验收角色对标注、侦检和验收敢掘进行任务处理.2)平台应支持M置标注任务的质检比例和笠收合格率.3)平台应支持标注项目进度宣希通过标准饮期结果全部满足5.3.2用例名称标注工具功能预置条件/测试步骤1)对标注工具进行配SS酋理.2)操作文本类标注任务.3)扭作图片类标注任务.1)撵作语音类标注任务.5)撵作初顼类标注任务预JW结果D步骤I可对标注工具进行厢双管建.可新增标签工具(包含标签、标注属性、角色等)、编辑、副除、住看等.2)步腺2支持选择特定标签时文本进行分类打标:支持对选择的文本按照关堆字进行打标.3)步骤3支持对图片进行面框打标,曲框支持方形、网形、在找、多边形、不规则形:支持OCR识别打标。D步强支拎小段落、乡段落语齐标注,分段(起始时间、文字描述)、分层(多个标签.不同内容),支持调节语音搭放速度,支持语音波形缩放,支持语语图切换支持多角色.5)步4S5支持对视频进行视孩检测.视叙分类的标注通过标准至少满足四项预期结果5.3.3川例名称标注模指预汽条件测试目的:1)支持可配料的乡轮标注和多轮检查,满足那个标注任务和数据妊过Z个川户审核确认.保证标注结果的准礴性,2)至少支持选举模式(不需要校杳员,通过多个标注员的标注站果H接选举出正确标注结果)和检置模式(有标注员和检杳员帆种角色)两种标注模式测试步骤DQIJ建标注任务&设置检衣轮数为2枪检式,并闿置1轮和2轮的检ifi人!.2创建检杳模式标注任务b.完成标注过程.3)创建选举模式标注任务c,配置3个标注员进行标注预期结果1)标注仟务a的标注数据会经过两轮不同人的检ft审核,两人均审核通过后才允许执行归档验收操件.2)标注任务b能做正常完成标注、检杳过程,并导出标注结果“3)标注任务C的3个标注员正常标注,不需要检iS过程,可直接选举出正确标注结果并导出地过标准预期结果全部满足5.49Bf95.4.1mtjFa三7%用例名称梗蟹开发环境预评条件测试步骤通过界面创建兼容器任务进行根型训练的开发和调试预期结果DT台界面支持选择数据里米滋,支持泉始数据岖、特征处理后的数抠邹和标注后的数据蛆.2界面支持输入任务的CPU、GPU和内存货源需求.3)界面支持通过notebook进行任务代码调测,notebook中支持源码版本管理,力支抽SSh访问。5支持任务克应.6支持在页面提交容24上新增文件变化到镀像仓库并可下次使用此新镜像.7)界面支持电示任务的训练效果监控.8)界的支持显示任务执行过程日志.9支持通过界面或平台预置SDK提交训嫁出的模型卷数文件到模型巾场通过标准伍期结果全部湎足5.4.2用例名称多机多卜训练-支持A】预训练模型预置条件测试步骤D登录门户在训练页面找到A1.模型分布式训练机件,通过该批件一健启动2机8卡的A1.模”!的分布式训嫌,2)观察训练日志输出和数据集中结果目录预期结果D步藏I中门户界而中预置特定根契的分布式训嫉组件供用户拖拽.2)步骤2中可看到日志输出和训练结果的输出。3)步廉】中的预训嫁柩梨训练任务可以成功运行,可从任务监控«面看到四张卡GpU利用率均大于20%通过标准预期油果全部涌足5.4.3用例名称服机训练到多机的一键切换预置条件/利i步骤检行平台是否支持小机训拣到多机训练的一杨例詈.顼期结果D平台提供相关SDK供用户在开发中调用.2)平台界面提供从手机训嫉到多机训练的一惚切换或者代码修改行数小于1(1通过标准预期牯果全都满足a<4用例名称离找模型评估对比预置条件测试步赛执行分类模型的训练任务检杳平台界ifi是否支持训练后的模里评估功能.预期结果D用户可在页面上看到项目所有己完成模型训练任务的列表1.2)J1.1.户可在列表1.中选择乡个任务进行模型评估指标对比,3图形界面中11J涵Ifi训练样本总数、测试样本总数、准病率.精确率、召回率.ROC的线、P-RIfi线、MAP指标,特怔单要度指标通过标准预期3来全部淌足5.4.5imit三*ttm用例名称可初化流水线编排但55条件/测试步骁DJji目成员进入算子页面煽排个训练流程,使用M标拖投算子至可视化编神区.串接融序按照数据位处理类比子一模型训练类口子一效果泮佶类Srf成一条流水找,点击各个1.)算孑设区参数利掷本.运行该流水线作业.2通过K8S控:MfW点立方预处理Irf和模叁训练。子各在躲种眼务器上运行预期站果D步藏1能提供所述操作过程使用的全部功能的。子类型,可在页而设H各个算子的警数.Xi水歧可成功运行瑜出结果.2)步骤2中预处理Kp在CPu服务器上运行通过标准预期结果全部演足5.5模量推理业务5.5.1tt三mi用例名称模型市场预置条件沏试步展D以项目人员身侪登录门户进入模型训练任务列表页面,选界一个已执行完成的训练任务,选择将此任务训填好的模型发布到项H模型仓麻.2)用户选择将项H模型库的模型发布到模型公共Ih场,3)访问公共校觉市场页面,杳石辕型展示列表.宜石粳也详细内容预期结果1)步獴2。J在项H模型阵中看到刚发布的模里.2)发布过程可设置模型名称、业分分类、第本信息等内各.3)步骤3可以在公共校暨市场页面看到发布的模型通过标准预期结果全部满足&5.2tt>7M用例名称腌力部署ff1.T1.t条件/测试步骤D项目人M进入酷力部署页面选择OCR能力S1.M入CPU/内存配小副本数、擀议类型、服务端口号信息,发布能力服务.2)通过REST接口访问祖务.在谢求消息中放入一张带行文字的图片,接收请求消息,3)能力服务上戊后,在未务笆理页面中,对服务SI的物理货源和副本进行能改,发起财服务接口的循环调川后.提交修改预期结果1)步报1可以选歼每个副本的CP1.股数和GpU卡效,协议类型界面支持Mm,和dfC可设设多福本,可以设置副木的井性扩缩容范附比如2-8;页面显示服务已经成功上战修罟完成,可在能力注册页而价到,2)步修2可在股务返回的应答消息中我希到文字识别结果,3)步例4可对梭务的参数进行在找修改和滚动升级,升级过程中服务不中断通过标准预期结果全部清足YDfT439020236.5.3用例名称应用授权预置条件/测试步骤D在应用授权管理界面创建应川.为应用创让某项能力的API访何授权和笏权规则。2通过平白提供的在线罚试页面发送AP1.谓用请求在页面上杳价结果位期结果D步骤I中Web页面支持应用授权、访问要权定双,应用至少支持按照并发路攻、调用次数进行控制和计Ii1.2步骤2中平台提供针对能力的M1.接口在线测试页面.3)平台页面支持掇权和取消授权操作通过标准预期结果全都满足5.5.4IUU1.务AB能试用例名教怏型股务AB测试预设条件制试步舞1)部署两个板本标签分别为VI、Y2的能力来务(V1.代表当前生产版本,V2代表模型新版本.2)通过平台页面控时流域比例,模型版本VI、12分别承担97V3%的业务流依,3)通过平台限务M试页面设置能力服务谛求辱数,对此能力服务An地址发起请求.在监技面板观察谛求计数.1)通过平台页面修改配置.住模型版本VI、V2分别承担3k97%的业务流量.5)IftSI步骤3预期结果D步骤2平台Web页而提供导流配W助能。2)步界2服务请求是通过平台吃b页面描供的服务测试页面直接用动.I1.可以观察到两个版本接名生务收到的请求分布范本符合步骤2中的设定,且步赚5观察到的请求分布符合步骤1中的设定通过标准预期结果全都满足5.63W律习工Jy5.6.1加值学习楣R用例行称预置深度学习框架面置条件/测试步骤检在平台何区框架是否支持传统深度学习框架他期结果D平台提供传统深度学习板架.2)平台支持通过页面扩展学习框架的不同版本,井可在训缘任务中使用划过标准预期结果全部均满足5.6.2自动机”习AUtdi1.川例名称自动机器学习AUEM1.预置条件/测试步赛检查平台是否支持f1.动机器学习预期结果D平台可支持自动机器学习投块.例如AUIOgIUc<1、W1.kf1.t1.ib,auto-sk1.ean,autoKerasf<,2)平台可提供各种超梦优化算法,平台能提供可视化分析界面好过标准假期结果全仞满足5.6.3*件优船g引孽用例名称硬件优化指理用策附条件/测试步骤D检看平台是否支持tve、11cnn.TenSQrRT等运行时环境。2)检杳平白是否支持岐件优化环境,外将模型一经过优化加速后部署推理.力将模型一短过模型加速后部*推理预期结果D平台界面提供把模型与TenSorInvtVmncnn运行时环境进行绑定形成能力的流程,支持此能力在推理环境部署.2平台提供时模型进行优化的流程通过标Jft预期结果全部湎足5.6.4标法化1H存H格式用例名称标准化模熨存储格式颈嵬条件测试步骡D检查平台是否支持ONXX存储格式.2)检衣平台是否支持不同深度学习框架生成的模型转化为标准格式并进行推理,将利试方提供的模型M导出r,nnx格式并进行IenS"KT模型加速部省使期Irt果D模型仓阵中应看到OX存储格式.2)平台具方把深度学习枢槊模型参数攵件转化为Omx格式存储的功能组件.3成功地都楔型M导出为OwX箱型并成功进行校蒙加速并部署成功,可以成功进行网用推理好过标准预期结果全部满足5.6.5高性能分布式M竦用例名称隔性能分布式训绦板架预置条件/测试步骤检杳平台是否支持horovod环形通信总线预期结果D平台支排分布式训拣任务采用ho11>v<xi框架.2)平台页面原生支持选择homvod来运行分布咒训练任务,用户为此修改的代码吊小于10行迎过标准预期结果全部满足5.6.6A1.云泉强用例名称A1.云桌面预置条件测试步赤检查平台是否支持以浏览器形式访问预川M集成开发环境的云桌面系统预期结果D以浏览器形式访问而不足专用客户端.2)云案面预置主流IDE,例如PyChan1、VSCOdC等Jfi过标准预期结果全部均满足5.7运青值业务&7.1用例名称门户功能预置条件M试步骤D昔理处登录门户肥b页ihi,分别进入项目酋理、数据管理.显像昔理、模里标注'技型训练、帙型管理,能力竹理界面进行操作.2)川户包录平台后,蛋看平台展览页面,3)管理员登录门户Web页面,进入主页内汴痂辑页面,添加一条关于平台使用要求的通知.然后切换项目人员角色受录预期结果D步骤1管理员只需亶在nb门户上登录一次即可在贝面上使用所述的所有版块功使,均无需二次登录.2步骤2中用户登录后可以自石刎共所设区的资JS配额的平台资源电体使用情况、能力服务为用依、训练及推理任务成功与失败个数,以及所有的项目信息、数据集信息、标注信息、推理信息、钺像信息.3)步修3中/口人员税款门户后可在生贝希到通知Jf1.过标准预期结果全部满足5.7.2用户与91目管理用例名拂用户与项目管理预制条件测试步骡平台竹理她通过页面创建租户管理员,租户竹理员登录后通过页面创tfJS口、项目管理员术«1日成员,井为项目成员分配为色预期结果D平台支持步骤I所有操作,至少预置平台管理员、模型平台管理员.标注mH管理员、数抠标注人员、数据申核人员、电法工程师角色。2)支持为一个用户分配多个角色。3)支持为项目分配或变更项目经理,支桥对租户和用户进行件川和B用管理通过标准预期结果全部满足5.7.3业务涵控用例名称业务流程管控预置条件测试步骤松爽平台是否支持业务流程管控懂期蒯果I)平台支持用户资源中请、数据集下找、模型发郴、能力发布、应用使用的管控流程.2)背控流程要具备用户申请和审批功酷支持用户与角色绑定.3)审批流程通过后使自动触发所关联的业务潦程操作通过标准例期结果至卸酒足5,7.4ft*EM9用例名称检源配额管理预置条件己羟创建由2台球机4卡的GPI:服务器构成的费源池A测试步界D平台营理员创坦租户T1.T2并一同分配到资源法A中,并设置11可使用8(凡资源城6张卡,T2可使用20%资源或2张卡.2)以租户T2身份提交申请使用,供GPU卡的训练任务.3)以租户T2身份提交申请使用1块GpU卡的训练任务.力笆理员修改T2的优源配额为80或6张卡.5)以租户T2身份提交申请使用4块GPUR的训练任务。6)删除租户T2,设B1.TI占有资源池A的全部GPU资源.创建T1.的项目P1.和12并设置门可使用80%资源或6张卡,P2可使用2隗资魂或2张卡.7)以项目P2身份提交中诸使HM块GPUR的训博任务,8)以项目P2身份提交申请使用I块G加卡的训旅任务.9)租户TI修改项目P2的资源国额为承汽或6张卡。10)以项目也身份提交申请使用4块GPU卡的谒练任务预期结果D步赛】中系统提供设双出户GPU资源元融的页面步骤2任务提交失败步骤3提交任务成功.步骤4可对T2的资源配领进行假改,力养5任务提交成功.2)步骤6中系统提供设置项I1.GPU依源期额的页面,步骤7任务提交失败,步骤8提交任务成功,步骤9可对T2的庚源配额迸行修改,步兼IO任务提交成功通过标准至少满足位期结果1,否则不通过5.7.5阑GPU匍自动有用例幺称闱WGP1.I侪源自动处理预置.条件/测试步骤1)T台设置为GPU利用率持续为0.时间大于冽小时自动拜放容器或自动产生平台通知“2)启动一个GPv任务,任务容器闱55不Wi1.HGpU进行计W1.3)等待24小时后在界而观察此任务是否f动被平台终止H1.期结果D步骤I中平台具有此设置选项.2步螺3中此任务被平台自动拄止且占用的Gp1.曲新回到侪邵池中,或平台界面产生空用任务通知通过标准预期结果全部满足&7.6页面I!用性用例名歆页面易用性预置条件1测试步骤1)项目人员在应交训嫁任务请求页面里用写一个需要20张GPu卡的训练任务.2)项11人姐在页面摄交训练任务后观察跳转进入的页面.3)在贝而操作标注、训练、模型发布等需要多个操作眇骤的任务,1)宜看平台是否提供在线帮劭系统ff1.期结果1)步骤1中页面梃示所需倭源抬过近前1«制或白动提示用户当时可用GpU资源.2)步骤2中任务提交后的页面可以自动利就任务的当前状态,不需要用户手动刷新.3)步腺3中系统提供引导页面,帮助用户一步一步完成任务,4)步理1在训练任务摄交的页面中行给人项含义的上下文招助通过标准f期结果全部满足&7.7ouos1.用例名称侪源盛控预置条件/测试步界1)以项目人员登录门户启动一个映机2GPU卡的训练任务,并皆看该任务的资源使用情况.2)管理员在门户按照平台、节点、租户'项目、任务的维度查看资源实时赛拄并按照不同时间维收分别杳看.3)管理登录一台GPV服务3S,通过命令行形式构代带宽.Gpt利用率是在1.j页面一致预期结果D步骤1中项目人!可以在平台提供的资源监控以面式看到的内容包括:CH.GPU、本地存M、共享存储.网络和内存的利用率或带塞.2)步臊2中,可存到按照平台、物理节点、租户、项目.任务,和分钟、小时、天和月维度对宽流进行汇总统计的图表.3步骤3中殷务器实际数值应与页面数值数Jfi过标准ff1.1.f1.结果全都消足6.7.8用例名称能力调用监控及授权但附条件/测试眇骤D项目人员部署能力对能力发起持续的调用请求.2)管理员爽需能力服务心拉引面.3)在应用投杈管理界面创建应用A,为应用授权设打“按次数计依"HIit方式,力在应用授权方理界面创建应用B.为应用授权设Bt”按并发跻数“盘“计收方式预期结果1)步骤2可查看刎以卜图形指标:200响应成功的占比、请求的响应时间统计、请求的响应大小统计、语求的来源统计,井可按照模型魔务的不同版木进行统计.2)步骤3、I可以看到两种计Ifi方式设置成功,并按照此种计收方式计量罐力使用通过标准预期结果全部满足5.7.9倍与统一日志用例名称告警与统一H志H1.Wt条件模型训解所有测试用例完成测试步骤D平台管理员登录门户.2);W试人员手动里启台GPI用务等.3)观察门户页面是否并出借警.O在统一日志页面搜索是否TrGPth机取册的日志记录,5)在统一H志负面授索模型训练3章节各个的用户日志输出例期结果1)步骡3中门户页而自动收狗提示有节点下她的告警,当GPt暇务器也启成功后页面收到节点上线通知,2)步骤4中可以在统,口志页面搜索到节点更启口志通过标准预期拓果全部满足YD/T439(=202358平台安全性区&1tt-ftP用例名称统一接入门户例置条件琪飞机工隼流程只开通,j每个参测产砧统一接入网关的IP可达测试步骤检台平台是否支椅在不累露集群内部节点冏络地址情况卜.可通过统接入网关正常使用平台预期结果在本块范企他用例测试中.测试人另在堡垒机浏览器匕的URI.的IP地址始终为各个厂商各门的统接入网关节点的地址.而不是其他节点的IP通过标Jft预期结果全部满足5.a2AfWMI用例名称愫作例假预置条件/测试步彝DF台管理员创建用户A.2)用户A誉聚系统、修改自己密码、提交训练任务,3)平台管理员进入平台的操作H志模块,进行掾作H志查HU预期结果D步骤3中平台提供操作口志杳询页面.用户A和平台首理员的登录、我改密日等操作均可杳询到,小作H志应包括用户浏览器的IP地址和发生时向.2)步骥3中平台的日志查询页面包括:日期、樨作奥型、探作用户、操作对故和操作详情:井可按照操作用户、操作对象.操作洋情进行日志的搜索杳闻Jff1.过标准预期站果全籥满足a9平台可性5.9 .点高可用性演!试用例名歆KSS情理节点高可用性测试K!置条件/测试步骤D启动成功训练任务T1.和推理收务T2后,,R启K8S背理服务器.2)在管理节点哒启完成R.进入K8S管理控M分观察T1.和T2所在的两个Pod的状态预期结果D步骤1中门户页面应无法访问.2)步睬2不需要后台题任何操作即可近的登录门户中,K8S管理控制台页面中显示TI和2未殳荷理节点里启而重启restart次数为0通过标准f期结果至部满足5.9.2弃卷任务GpU贵源回收川例幺林异常任务G加资源回收预置条件停止资沏池中所有使用GPU的任务测试步骤1)启动个单卡的GPU训级任务T1.通过门户观察系统可用GPu致fit.2)登录T1.容器实例所在GPIJBi务器,½frkubect1.de1.eted令强行停止该卖例,1分怦内通过门户观察系统可用GPV数星预期结果步骤1可观察到可用GPU总数为7,步骤2可观察到系统可川GPU数同为&资源已经自动回收。注:对于有H动容错机物的产M在步骤2处会自动把井常失败的T1.雄