欢迎来到课桌文档! | 帮助中心 课桌文档-建筑工程资料库
课桌文档
全部分类
  • 党建之窗>
  • 感悟体会>
  • 百家争鸣>
  • 教育整顿>
  • 文笔提升>
  • 热门分类>
  • 计划总结>
  • 致辞演讲>
  • 在线阅读>
  • ImageVerifierCode 换一换
    首页 课桌文档 > 资源分类 > DOCX文档下载  

    YD_T 4389-2023 AI服务器及能力平台技术要求.docx

    • 资源ID:1692102       资源大小:44.32KB        全文页数:20页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    YD_T 4389-2023 AI服务器及能力平台技术要求.docx

    ICS33.040.40CCSM32YD中华人民共和通信行业标准YD/T43892023Ai务器及能力平台技术要求Technica1.requirementsforAIserversandcapabi1.ityp1.atforms2023T1.f1.实施2023-07-28发布中华人民共和国工业和信息化部发布目次前吉I1.1范附I2规范性引用文件13 术语、定义和缩略语I3.1 术语和定义I3.2 缩略语24 AI能力平台技术要求34.1 总体要求34.2 功能要求44.3 接口要求135 A1.服务器技术要求135.1 总体要求135.2 配置要求145.3 环境要求145.4 云计算技术要求14前言本文件按照GBrr1.j2020£标准化工作导则第1部分:标准化文件的结构和起草规则3的规定内容起草,请注意本文件的某些内容可能涉及专利,本文件的发布机构不承担识别这些专利的谎任,本文件由中国通信标准化协会提出并归口。本文件起草的位:中国电信柒团有限公司、中国信息通信研究院、北京百度网讯科技有限公司.本文件主要起草人:陈子开、李锋、高飞、王峰、郭亮、赵继壮、谢明媚、李洁、康亚京、程帅、郑超、张学鹏、王少鹏、黄冠-、高达、程浩然,AI服务器及能力平台技术要求1范B1.本文件规定了A1.版务器的标注平台、训练平台、模型管理平台、模型服务平台、培咄资源平台等子平台的技术要求.本文件适用于AI服务平台的设计、建设及服务器设备选型参考。2规范性引用文件卜列文件对于本文件的应用是必不可少的.凡是注日期的引用文件,仪所注日期的版本适用于本文件。凡是不注日期的引用文件,其域新版本(包括所有的修改单)适用于本文件,GBT34990-2017信息安全技术信息系统安全管理平台技术要求和测试评价方法GB/T37956-2019信息安全技术网站安全云防护平台技术要求3术咻定义和语下列术语和定义适用于本文件.3.1术语和定义3.1.1模型mode1.训练完的结果文件和配设文件集合(包括网络结构、参数等13.1.2弓障engine将模型部署为稳定服务时,模型可进行推理的容器环境.3.1.3能力abi1.ity模型部署完成后提供稳定访问的服务,能力部署时包括模型和引擎两个部分。注:业务层需提供一个管理功能,对各能力有版本、谓用权限的管理,3.1.4数据9(处理dataprpr<MXNin*对原始数据进行必要的清理、集成、转换、离散和规约等一系列的处理工作.注:处理有多种方法,例如数据清理、数据史成、数据变换、数据归为等,3.15特征工程featureengineering本质是一项工程活动,目的是最大程度地从原始数据中提取特征以供算法和模型使用,3.1.6关联分析associationana1.ysis通过研究已经产生的数据,找出存在于项目集合之间的关联模式,在具备关联性的情况下通过其中一个项集对另外一个项集进行预测.3.1.7dataannotations指数据标注员借助标注工具,对图像、文本、语音'视顽等数据进行拉框、描点、转写'语义分割等操作,以产出适合机器学习数掳集的过程,注:通常数据府脏的类型包括图像标注、语音标注'文本标注、视频标注等种类.标i(1.ft勺基本形式有标注画框'3D画框、文本转录、图削J点、目标物体轮廓战等,3.1.8超数hyperparameter在机器学习中,超参数是指在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况F.需要对超参数进行优化.给学习机选择一组最优超参数,以提高学习的性能和效果.3.1.9租户tenant可根据自身需求对租用的系统实例进行个性化配应的主体且保证同一平台卜的数据隔离。3.2缩略语下列缩略谓适用于本文件。AI人工智能Artificia1.Inte1.1.igenceAPI应用程序编程接口1.icaionProgrammingInterfaceBIOS基本输入输出系统BasicInputOutputSystemCPU中央处理器Centra1.ProcessingUnitFPGA现场可堤程逻辑门阵列Fie1.dProgrammab1.eGaIeAITayGPU图膨处理器GraphicsProcessingUnitHBA主机总线适配器HostBusAdapterIPMI智镇里平台管理接口Inte1.1.igentP1.attbnnManagementInterfaceKVM健盘、显示器、就标Kcyb>ardVideoMouseOCR光学字符识别Optica1.CharacterRecognitionPCIE高速外设互联标准Periphera1.ComponentIn1.eruiHinectExpressRAID独立磁盘冗余阵列RedundantArrayoIndependentDisksSAS串行连接SCS1.接口Seria1.AttachedSCSISATA串行高级技术附件Seria1.AdvancedTechno1.ogyAttachmentSNMP简单网络管理出议Simp1.eNCIWorkManagementProIOCO1.SSD固态硬盘So1.idStateDrives4A1.能力平台技术要求4.1 总体要求4.1.1 A1.能力平台总体柒构AI能力平台应采用分层次、结构化设计思想实现高内聚低耦合的功能架构,能修灵活适应业务的发展与变化.具体如Ka)异构计算层:计算基础资源层,应提供GHkCPU计算资源,并考虑支持FPGA等其他类计算资源.b)I计算引擎:应支持各类成熟开源的深度学习框架,可用于进行各类人工智设神经网络模型的训练,以及人工智能模型的分布式运行支探.平台应内置成熟的开源深度学习框架,提供主流通用的AI深度学习和机器学习模型(包括且不限于SK1.eam、Tesoif1.ow.Keras,Pxtoivh.Caffe等)。0标注平台:应实现数据的标注工作,包括图像、语音、文木等标注,宜实现标注任务分配、任务监控、标注人员管理、标注页面、标维管理等.d)训练平台:应实现业务场景管理、数据集管理、模型训练、生命周期管理与发布等工作,模型训练中应支持自动化训练,选定自动化训练后,平分可自动进行数据的预处理、数据采样、数据分别、模型训练、模型脸证、模型选优、桢型测试等工作,最终自动输出最优模型.OAI通用能力服务:负责A1.能力管理和展现、在线预测等。应提供包括智能语音、计算机视觉、自然语言处理等在内的通用能力.OAI能力平行运营管理:是A1.能力平台的管理门户,统一出入口,统一管理数据、能力、运营管理'训练等各类操作,保障系统整体安全.应提供CPU、GPUi1.算资源的按需分配调度设力,提供业务容化系统服务.4.1.2 AItK力平台内部鲁梆魅系A1.能力平行各模块之间的关系可以归结如3a)标注平台对训练数据型进行标注,b)标注平台将原始文件与标注结果进行存储.c)训练平台从标注平台获取己完成标注的数据集信息,d)训练平台从存储池扶取训练数据和标注数据.)训练平台调用训练引擎进行训练。D训练结束,训练引擎返回训练结果。R)训练平台将训练完成的AI能力发布到AI超市。h)AI能力平台负贡AI能力管理和展现、在线预测等。4.2 功要求4.2.1 峰注平台标注平台应支持用户上传私有数据或同步共享范围内的共有数据,标注平台对数据进行标注,产生带标签的样本集,包括数据标签辉、数据标注引擎、标签索引。标注平台应实现对标注工具的配置管理,包括对文本类、图片类、语音类、视顺类等进行标注时的不问工具,同时,标注平台应配翼多轮标注和多轮检杳,满足单个标注任务和数据可以经过多个用户审核确认,来保证标注结果的准确性。至少支持选举模式和检杳模式两种标准模式。4.2.1.1 耐E标注项目管理应实现标注项目的全流程管理,包括项目的创建和维护、项目的查看、进入项目创建任务等功能,其中项目的创建和维护应支持项目分类管理,创建标注项目依据应是以业务作为驱动,即以标注业务类型进行项目的划分.4.2.1.2任务发布发布任务过程中,应支持图片文件与操作员之间关联,发布任务成功后,图片文件与具体操作员建立操作关联关系。打标任务创建在项目之3单个项目可支持创建多个打标任务,打标任务由文件、标注员、审核员、起止时间、提醒时间、抽样率、质检、验收合格率等元索组成在默认设置下,每个任务都应支持多标注员和审核员的参与,人员之间平均分配图片,每张图片只发布一次.在自定义设置下,应自定义最大发题量(一张图最大支持发布的数量),支持一张图片发布给多个人。平台应支持用户自定义抽样率,在设置完抽样率后,可对标注后的文件迸行抽样审核。抽样率应体现到每个标注员上,以便从标注员的维度统计抽样文件数.4.2.1.3½ft*2E打标视图主要由三部分组成,包括图片列表、打标区域、标零列表.其中图片列表用于选中打标的图片,打标区域即在图片上进行图形标注行为,标签列表给出图像相关联的标签。4.2.1.4妍种审核人员对标注员标注的图片进行审核实现审核任务处理和标注信息隐藏功能。4.2.1.5标签理标签管理实现时标注所用标签的统管理功能,要求实现以下内容,a)标签的划分应由行业、标签分类组成,即系统有多个行业,每个行业卜可支持多个标签分类.彩个标签分类卜由若干个标签组成b)行业、标签分类、标签应能区分是系统定义,还是自定义。C)应支持每个标签,和唯一Code的对应.code为系统随机分配,不允许用户进行修改,避如Ode被重现使用从而造成标笠的错误d)标签发布后,管理员在任务分配上进行配置时,同一类的标签应有限制条件,避免类似同关瑕疵被定义成多种瑕疵的错误。C)标签管理之用户权限:审核员及标注员,应支持只查看标签管理页面,不允许对标签进行编辛t修改等操作:项目管理员、客户管理员及系统管理员应支持对自定义标签模块进行增删改查等操作;中心管理员应支持对系统标签进行增删改查。4.2.2训练平台提供场景的构建、数据集的管理,以及模型自动化训练、模型生命周期管理、模型发布等。422.1IHHUB场景视图要求实现以卜内容.a)应提供仪表欢来展现该用户权限可见下的场景数收、各类型场景数后、模型数信、模型已发布故城、模里发布率、AP1.服务调用次数、AP【服务调用次数环比等指标,点击指标应可以查看详情列表.b)应提供服务排名功能,点击某个服务,展现该服务一周内的调用次数趋势图,C)应提供训练任务、标注任务的监控视图,包括总数、完成情况等.可以查看详情列表.42.2.2Ma应提供根据场景名称、场景类型搜索的功能,场景应包括场景名称、场景类卷、场景描述、创建人、创建日期、操作等属性.a)场景新增:支持向导式创建场景。1)应支持根据任务类里来进行场景类型的选择,至少应包括OCR、图像分类、目标物体检测3种任务类型.2)应支持场景的基本信息配W.,例如场景名称、场景描述、场景编码等信息.3)场景新建成功提示,应显示场景配置信息,包括场景类型.场景名称、场景埸码、场景描述察4)应提供数据臾新建、快狗训练等相关链接,方便用户具备一次操作完成的界面能力,b)场景修改:应支持从场景管理中选择并修改已有场景修改场景名称、编码.描述等属性.O场景删除:应支持从场景管理中选择并删除已有场景.场景捌除的同时,会眦除该场景下已经创建的模型,且无法恢复。4.2.2.3数据管理实现平台所有数据集的统管理功能,并根据用户权限支持数据隔离与数据共享,要求实现以下内容。a)提供已有数据然管理能力,应支持根据数据集名称进行搜索。b»应支持展现该用户权限卜所有数据集,包括数据集名称、图片数量、已标注数过、创建人*&J建口期、数据描述、操作等属性.c)提供数据集查看、删除.追加等操作。d)提供新增数据集入口,支持大文件上传与下鼓.e)应支持数据隔黑、共享及在流程中的传递。4.2.2.4 mm支持用户自主训练模型,提供模型训练流程中开始训练、停止训练、模型发布、服务验证、关闭服务等各节点的操作,并对模型训练状态和发布状态进行分类,完成不同状态模型的统管理,a)应支持模型管理的能力,包括场景和数据集支撑同一个场景多次训练,支持数据集更改。b)应支持模型开始训练、停止训练、模里发布、关闭服务、服芬验证、删除等操作;训练状态有训练完成、训练中、训练异常、待训练4种状态:模型发布有已发布、未发布两种状态“C)应支持后续新增版本时,与上次版本的时比结果杳看功能.d)待训练模型应支持开始训练、删除操作。e)训练中模型应支持停止训练操作,同时状态更改为待训练状态。f)训练完成产生模型版木,设定为初始版本,后续随着多次训练自动费期版本,支拉删除、模型发布、开始训练等操作。发布状态初始为未发布,并支持校型发布功能模型发布时同时更新发布类型、地址等属性。B)训练完成旦未发布的模型,应支推删除、开始训练、模型发布等操作.h)训练完成且已发布的模型,应支撑删除、开始训练、关闭服务.服务验证等操作。如果关闭服务,发布状态更改为未发布.i)训练异常状态,应支撑开始训练、删除等操作。j)应提供AP1.或者SDK等方式发布模51。4.2.2.5 稣引掌训练引擎应包括提供琪础算法能力和自动化训练等功能,a)提供以下基础算法能力。D图像分类:应包括InCePIion、ReSNeI、PNASNet.DenSeNet等.2)目标检测:应包括SSD、YO1.O、Faster-RCNN,RFCN等,3)文本检测:应包括YOIQ、CTPN等.4)文本识别:应包括CRNN、DenSeNct等.b)自动化训练应支持数据增强、并行训练、自动调参、模型选优、评价发布等功能.D数据增强:通过裁剪/缩放/平移/颜色变化等调整图片的方法增加训练集的样本敢,使训练出来的模型具有更好的泛化能力。2)并行训练:对r每一种算法和年一食多数并行进行训练,以加快自动训练的过程,缩短训练所襁时间,3)自动调参:对于每一种尊法,都应自动调节出多套超参数进行训练,每一套参数在训练过程中还会在不同的训练时间和训练步数下自动保存多个模型,使每一种尊法都会训练出多套不同的模型.4)模型选优:综合多种算法及多食参数训练出来的模型,在舱证集上进行评估球终选择出公优的模型。5)评价发布:取得最优模型后,在测试集上评价该模型的性能指标,反馈该模型的效果,并烦后将模型发布到可用的AH列表中供外部使用.4.2.3 A1.应用市用A1.应用市场主要提供模型的展现、用户体验预测等功能.4.23.1 场景分类应支持从自然语言处理、图片文字识别、图像识别、人脸识别四大模块展现已完成的模型效果,每个模块进行细分子项A1.能力,使用者可以根据需要选择时应的场景模型诳行使用或者体照。4.23.2 24SUSff1.应提供界面对模型部署完成后的应用进行接口调用功能.并支持对模型进行评价.a)提供界面体验应用能力,同时支持利用AP1.SDK等方式进行接口调用。b)应支持模型评价功能,可从产AA功能、模型准确率等指标迸行评价。4.23.3 3计分析统计分析应提供以下信息的统计与展示。a)应支持统计当前在线用户数、历史总用户数两个指标.可以根据评价次数、访问次数来展示用户最近一个月内的使用次数趋势图.b)应支持用户周期内的使用情况分析,可以根据统计周期、统计增(评价次数、访问次数等)进行切换,C)应提供产品评价情况.量化展现模型的评价结果.d)应提供用户讨价趋势,展现用户也近一月内每天的总体评价情况,客户体验是否有提升.4.2.4 通用能力应提供OCR、图像、视频'语音'语义、自然语言处理、知识图谱、推荐等通用能力服务。4.2.4.1 OCR能力应提供以卜OCR识别能力.a)照片文字特写:识别照片(图片)中的文字.b)身份证识别:证件号码识别、稽核.c)合同文档解析:合同转文字.d)简历内容解析:简历特文字。O增值税发票识别:发票真伪验证.D合同用堂(或签名):真伪识别。g)供应商资质证明识别:证明文件真伪识别.h)学位证书识别:头像脸证,证件号码识别和验证。i)其他(通用文字、手写体、网络图片、银行卡、出租车票、通用票据、护照、名片、营业执照、表格文字、火车票、行驶证、驾驶证、车牌识别)4.2.4.2应提供以卜罔像能力.a)人脸检测、人脸脱证和识别、人脸对比、活体检测、人脸特征提取分析(多人脸检测、湾年龄人脸识别、五官定位、人脸搜索b)色情内容过浊.C)舜恐敏感信息过述.4.2.4.3 g。商标检测0e)手势识别、人体憎测。0通用图像识别。g)场处/物体识别.h)广告检测。i)图文审核等,4.24.3应提供以卜视频能力.a)视频风险内容识别.b)人体关键点检测,c)人流In统计。d)人体属性检测.e)运动轨迹识别。4.2.4.4应提供以下语音能力.a)语音识别:语音转文字(长语音识别、远场语音识别)。b)语音合成:文字转语音,c)性别年龄识别。d)语音指令、语音唤醒。e)语音关键词检索,O音频文件转弓。42.45语义助应提供以下语义加力.a)本体构建。b)关系抽取.c)知识融合。d)关系推断。C)属性决策.,0语义搜索。4.2.46自然删联理财应提供以卜自然语言处理能力.a)词法分析:分词,词性标注、命名实体识别NER,能帔识别出文本事中的基本词汇(分词),对这些词汇进行重组、标注组合后词汇的词性,并进一步识别出命名实体。b)情感倾向分析:针对带有主观描述的中文文本,自动判断该文本的情感极性类别并给出相应的置信度.情感极性分为积极、消极、中性。c)内容理解、关键词提取、文本分类、文章纠错、文本风险内容识别、文本信息智能提取。4.2.4.7应提供以下知识图谱能力.a)实体标注:社对短文本的实体标注服务,通过实体标注可以将搜索、推荐、广告、对话等多种场势下的文本进行知识解析.b)汉语检索:可检索单字、词语、成语、恃诃、古文、汉语相关问题等多个内容维度,精准输出检索结果,回答汉语客观类知识问题.c)知识问答:基于结构化数据的精准问答,可直接满足用户知识信索需求,d)知识图谱:提供支持类继承、属性多态的面向对象描述体系,e)图数据陈:能步轻松构建施于图数据库的企业级应用,实时分析关联数据,挖掘数据价值,4.24.8应提供以下推荐能力.a)个性化推荐:全方位刻画用户行为特征、关注点及意图,针对不同偏好的用户进行“人面”的精准推荐.b)相关推荐:从多维度分析推荐内容之间的相关性,结合用户偏好,实时提供与当前内容相关的推荐集合.C)主题推荐:按主题进行聚类分析,针对每类主题进行个性化推荐ed)TOP推荐:提供丰富的可组合的排序策略,可根据用户行为的实时反馈更新排序。YD/T438<K-20234.2.5 AIMM*A1基础框架应至少提供以卜深度学习框架基础能力。a)TcnsorHow.b)scikit-1.cam.C)CafTcCdK'NTK。OMXNetc0Torchog)Theano,h)Kcras.4.2.6 MHMMKtn4261总体需求资源虚拟化应时AI能力平行计算和推理涉及的硬件进行管理.虚拟化和统一调度,主要管理的硬件包括GPU、显存、CPU、内存、SSD等基层硬件,操作系统应基于1.inUX内核。主要的能力如下.a)应支持资源按照用途划分为训练集群、推理集群两类资源,D支持创建、蒯除、修改集群.2)支持集群伸缩方式管理:支持按计划伸缩,按性能伸缩等.3)支持资源使用情况可实时监控“b)应支持通过容器化计券实现计算资源的虚拟化,主要包括:CUP,内存*GPU、显存。C)应支持以高效低碳的方式对训练任务、推理任务进行调度。d)应支持以标准化的方式对模况训练程序和脚本进行支掠,实现训练过程的可视化、可管和可控。O应支持通过多层级的模型缓存机制实现冷热模组的差异管理和高效切换.42&2应支持资源按照用途划分,系统集群资源(CPU.GPU.内存.显存)分为训练集群、推理集群两类资源,并对不同集群进行相应管理。提供统一监控视图:支持根据应用自动分配资源:支持在不同应用之间实现资源隔离.a)资源视图:应支持以视图化的方式显示整体的资源情况。D能鲂显示整体的资源概况,主要包括总资源、被用资源、剩余资源、各柒群资源占用情况。2)能弊按照分集群的方式显示资源概况,主要包括总资源、被用资源、剩余资源、各应用资源占用情况,正常节点数后与列表、异常节点数做与列表等,b)新增资源:节点在统一管理视图卜.应提供新增资源节点(CPU.GPU和内存)功能,新增节点入口提供新增苗点名称、描述、资源配置、资源节点级别等信息录入功能.c)资源节点:挂起对一个或多个资源节点选择挂起,挂起的资源节点不能再被应用使用,同时节点中运行的应用可被强制退出并迁移至其他可用资源节点。IOd)资源节点激活:新增资源节点或被挂起节点被激活后加入可用资源池,供应用申请,e)资源节点删除:要校监被删除节点处于挂起状态旦当前无应用占用。0资源中请:提供资源申请接口,训练平台和A1.超市可以通过多个维度申请资源,提供细粒度维度(GPU个数、内存数量、显存数量、CPU核数)优先级等,D如果系统有足够的资源返I-I申请结果.2)当前资源不满足应用申请时返回资源不足提示。4.2.R3支持通过认证和权限等管理机制对A1.能力平台计算资源的使用进行管理和捽制,保证整个平台资源的安全和可靠性,其他安全昔理要求应按照GBb379564GB,T34990相关规定.a)用户管理:应支持用户分类管理(普通用户和服务账户).D普通用户是假定被外部或独立服务管理的,管理员分配私钥1平时常用的kubt1.命令都是普通用户执行的。2)服务帐户是由PaaSAPI管理的用户。它们绑定到特定的命名空间,并由AP1.服务器自动创建或通过AP1.调用手动创建.服务帐户与存储为SCCrctS的一组证书相关联.以便集群12程-与PaaSAP1.通信。b)普通用户的创建和杏看及授权:应支持通过创建证书和切换上下文环境的方式创建和切换普通用户。C)服务账户的创建和授权:服务账户的用户信息数据由kubcmetes来管理和维护,应提供SerViCeMOunt赋予进程相关权限,4.2.7 4刖任务生命网训练任务生命周期管理具体要求如下.a)训练任务一般需要经过比较长时间的运行才潴完成,为了对这个过程进行可视化监控,并结合监控结果进行必要的人工干预和调节,应对训练脚本进行标准化阅读,A1.能力平台的资源管理模块应能够和训练脚本约定统一的接口协议,通过该协议应实现以Z功能。D应支持灵活多样的训练任务分片,训练脚本可以按制定义分片策略.2)应支持灵活多样的样本数据加载和预处理,俄培支持训练脚本分解模型训练的需要从不同的数据源tt1.我数据,进行格式转换和内存加载.3)应支持在不同分片之间发用样本数据,提升系统整体性能。1)应支持通过进度接口和训练脚本进行交互,实现细粒度的过程监控和过程管控。包括进度监控、预测、任务分片挂起、重激活等细粒度的过程控制.5)应能修通过接口对模型训练过程参数进行ChCCkPOim保存,以使作节点异常之后可以断点重除b)应支持在标准化的约定和把础能力提供的基础上,实现可视化、可管可控的训练任务生命周期管理,主要包括创建任务、资源指定、提交任务、撤销任务、停止任务、任务列表连看、任务状态查看、任务信息杳看等功能,具体如下。1)应清晰地展现训练任务的工作盘和整体速度,包括任务的总分片数量、任务的总步骤数!也目前已经完成的总步.班和进度。2)应可预测训练任务的完成时间。3)应显示每个分片的进度,包括总步骤数、已经完成的部算、当前的模型效果(例如准确率等)。4)应显示每个分片当前的状态,关联的虚孤机,总体消耗时间,虚拟机资源使用情况。5)应Ifi点显示等待时机过长的分片.6)可重点显示执行时机过长的分片.7)可进行人工干预,对执行时机过长的分片强制迂移到其他虚机执行。4.2&5i三三IHU训练任务屈于计算密集型任务,在一个集中的时间内对资源有较大的需求.系统应施考虑同时有多个训练任务提交到平台的时候,能够以灵活高效、分布式、可管可视的方式实现训练任务的调度和执行.a)应支持灵活的资源策略:包括CPU数眼、内存大小、GUPKi理、显存大小、优先级别.b)应支持灵活的调度策略:包括资源利用率最高、响应时间最快、系统整体吞吐最大等策略.C)应支持多种多样的任务执行模式,包括分布式多机多卡、单机名卡、单机单卡。d)应结合任务优先级,以多级排队的方式进行优先级控制。e)应时训陈任务进行分片,以分片细粒度的模式使用平台资源,避免出现大任务或者长时间不能完成任务的情况,其他任务因为没有资源而被“饿死”.4.2.6.6推理类任务和训练类任务不样,这些任芬能要长时间在跳,以满足业务系统的模型赧务i求,同时,业务对模型的需求没有时间集中化的特点。任务调度更多需要考虑资源整体利用率。推理任务的调度要求如上a)应以定时的方式运行部分时间柒中的推理任务.b)应以资源充分共享的方式分配资源,让平台整体资源利用率最大化.C)应根据模型对显存、CPU、内存、GPU,以及模型的使用流成不同行楚异化管理,d)应基于模型对品存的大小不同进行分组避免显存资源的浪费.e)应基于模型的使用顺率不同进行分通道,针对流诚非常大的模型,能够长时间拥有GPU、显存等资源以便非常卷效地提供服务,针对流量比较的的模型,能够让多个模型共享一个虚拟容战,实现资源使用率的最大化.0应实现高效的模型切换,当多个模型共享个容器的时候,施要实现高效的模型切换,.而要在35秒内完成模型切换,脂免应用感知不好。4.2.6.7 4ffiM模型部署管理包括以下能力。a)模型加载,模型卸我.b)模型的热更新。c)模型多版本兼容,d)按模型调用的冷热程度合理分配资源.e)在模型部署功能中,支持通过灵活的多级模型部署和缓存策珞,实现高效低碳的模型服务能力。主要需求如下。1)是活的妥层模型缓存架构,包括SSD线的冷模型、内存级的温模型和显存娘的热模型。2)灵活的多分组和多通过策略,分级模学对GPU大小需求不同进行分如,在组内结合模型应用频率分通道,3)高效的模型冷热切换,能够高效地从内存中切换模型到显存中。4.3接口央求A1.旄力平台接口主要分为对外接口和内部接口两部分,本节将会对这两部分的技术要求做出规定。4.3.1 对外接口AI能力平f河外接口技术要求见表】«1AI能力平台对外接口技术要求接口名称美联系统接口禽求描述数据交互M健力平台-数据平台、数抠平台W向交互,包拈读取标注数楙*训练数据和元数据信息.接口形式包括实时AP1.接口和文件接口A1.能力开放业务系统-AI能力平台业务系统调用各费服务AP1.对传入据进行A1.识别处理.并返何处理结果4.3.2FMMtQ内部接1.1.要求见表2。«2AI能力平台内事接口技术要求接口名称关联乐统接口需求描述样本集同步训练平台-标注平台训练平台通过实时API接【1从标注平台按取已完成标注的数据柒信息A1.模型发布训练平台-A1.超巾训练平台通过实时API接n将说练扇模型发布到AI超市5A1.服务技术要求5.1 总体要求从服务器硬件架构来看,A1.服务器应采用异构形式,在异构方式上可以根据应用范围采用不同的组合方式,例如CPU+GPU、CPUTPUCPU其他的加速卡等,AI服务器总体上应提供以下信息。a)具体、完整的产M和技术配制方案。b)产品型号的推出时间.O单台设备和相关部件的可靠性指标,至少包括:设符和部件的无故障运行时间、每年的不可用时间等。d)设备使用的CPU原生产厂商,例如设备为OEM第三方产应说明该产M的原生产厂商。5.2 EsX求AI服务器应满足以卜.设备要求.a)应提供板卡级的详细配置列表.b)应提供详尽的物料描述。C)应提供电备电源模块引出的电海规,电源畿氏度按不小于2米配时.d)硬件设备加电运行时,插入或拔出板卡应不引起任何元件的损坏和缩短使用寿命.由应支持将来该设备的平沿升级犷容,即升级过程中,不得出现必须替换现有背板、电源桢块等主要部件,或需要外接设备才能达到所标称的系统最大扩展能力的情况。0在同一个资源池同一批次中的供应中,同类配件同M牌同规格,且(Mk网卡插槽、内存插槽、磁盘顺序应按统一方式进行装配。S)应提供设饴的电减兼容性及抗电减干扰所满足的相关国际标准、测试方法及测试数据.5.3 环境要求理件设备应能适应以下温湿度等要求,a)温度:10C3QCb)相对湿度:20%80%.c)温度变化率:W5'Ch,不结森。d)防尘:静态条件下的测试,主机房空气中不小于0.5Km的尘粒数,少于18000粒/升.e)设招严格要求前进风,后出风,机箱上下不得有开孔(包括辅助进风或出风孔)如上下有开孔,应支持服务器堆林放置,堆会后服务器功能、性能、设备故障率与设备寿命正常;无宕机、自动关机、系统及部件告警等异常现象.5.4 云计算技术要求云计算技术要求为支持通用的虚拟化技术,a)基于x86指令集架构的处理器,支持硬件辅助虚拟化技术.b)同一主板上支持多个CPU插槽,支持用户选配CPU个数.C)使用先进的制造工艺、低TDP的处理器,CPU能提供多级降瓶,降低计兑平台空阴和低负载下的功耗。d)刻不多路CPU机型,单个或多个CPU发生故障时可以自动重启并屏被,不影响其他CPU及整机的正常运行。e)应支持各种版本的WirKkWS操作系统和主流的1.inux操作系统。0支持VMWaTC、XenSener.Xen.KVM、HyPer-V等多种服务器虚拟化技术。g)支持16个内存插描.DDRI接口标准,单条内存最低容量16G及以Jt.h)支持ChiPkiW高级ECC技术、内存镜像技术和内存热符技术。i)支持SATA、SCSI、SAS硬机接口,建议采用SAS和SATAIH接口,外部存储支持FC、iSCSI存储接口。j)支持SAN结构,支持速率大T6GMi的FCHBA的PC1.E卡,可挂接光纤交换机。k)提供独立于操作系统的带外管理硬件:提供独立的10/100W1000M管理网口.乘用RJ45管理接口.I)支持IPM1、SNMP,SMC1.P等相关防议:要求提供基于RMCPHPM1.的管理接口:要求提供C1.uHTTP管理接口:要求提供SNMP管理接口:要求褥供SNMPTRAP接口:要求提供可编程管理接口.in)用于存储虚拟机软件及钝像文件,要求USBHaSh存储容量足够大,硬盘批大支持2TB以上。»)应支持从光脉、木地硬盘以及SAN等位置启动操作系统,支持启动镜像的集中管理,o)应支持磁盘阵列技术,支持使用RA1.D卡将硬盘组织为冗余感盘阵列,支持RA1.D技术包含但不限于:RAID0、1、IOx50、60等级别及直通,RA1.D卡支持缓存电池或是电容保护。P)应支持冗余电源、冗余风扇、冗余交换等可靠性要求:电源支持N*N冗余,风扇支持N+1冗余,支持单风扇失效,q)要求服务器系统具备自检能力,能检测设备的状态和故障。D支持兆、万兆及25GbE以太网技术,根据药要可选支持IOGbE网卡;支持SAN接入技术,根据需要可选支持FeoE技术.S)应支持TOE/IOAT技术,支持TCP"P卸载.以降低服务器开销,提高网络IQ效率:支持网络端口聚合功能,满足系统对于网络带宽的需求,提岛系统可用性:支持网络端口故障切换功能,满足系统高可用性需要:建议支持iSCSI加速,提高IPSAN的性能:建议支持硬件虚拟化辅助技术:建议支持冗余热备份,提高网络可靠性.t)提供带外管理功或,使在服务器或网络出现故障时,管理员仍可通过网页浏览器来接入和管理服务岩系统,管理能力用虚拟KVM、虚拟介质、健膜状况监测、日志JSM等功能.U)要求服务器在前面板、服务器内部分别提供工作状况指示灯,指示服务洪各部件的工作情况,包括:电源指示灯、整机健康状况指示灯、内部部件工作及健康状况指示灯(包括CPU、内存等关键部件)、电源模块工作及健康状况指示灯、硬盘工作及健康状况指示灯.V)要求远程C1.I访问支持SSH连接,远程Web访问支持HTTPS协议:要求支持基于硬件口令的开机控制:要求支持远程管理加密访问,包括用户名/密码/权限分级管理等,W)要求采用IPM1.管理规范,提供远程开关机、包位、H志、硬件监控、So1.等管理功能,提供不依赖于操作系统的KVMoverIP,支持带外在线升级BK)S和FirMare.X)支持带外远程管理接口:要求系统具需在指定功耗卜,运行的能力:要求在允许的误差范用内(+/-10%)测信服务洪平台的实际功耗,并可通过标准IMPI协议接I进行报告:要求动态监控平台功耗,当功耗超出预定值时具备告警能力。y)可以支持连续测量系统功耗和热fit,并应掂修根据系统负载控制CPU功耗状态,且不会造成性能损失.可做到简单、集成的功率测量和控制,降低电源和散热成本.z)支持通过顼率和风砺速度谓整以达到降低功耗的目的,1.

    注意事项

    本文(YD_T 4389-2023 AI服务器及能力平台技术要求.docx)为本站会员(夺命阿水)主动上传,课桌文档仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知课桌文档(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-1

    经营许可证:宁B2-20210002

    宁公网安备 64010402000986号

    课桌文档
    收起
    展开