人工智能计算中心项目需求设计方案.docx
《人工智能计算中心项目需求设计方案.docx》由会员分享,可在线阅读,更多相关《人工智能计算中心项目需求设计方案.docx(60页珍藏版)》请在课桌文档上搜索。
1、XX人工智能计算中心项目需求设计方案1 .总体要求:XX人工智能计算中心本期建设Al峰值性能不低于IooPFloPSFP16总算力,后期根据算力需求逐步扩容,支撑人工智能应用的模型训练及推理,本项目建设内容为人工智能软硬件基础设施和数据中心机房配套设施。项目建设在技术上以国产安全可控软硬件技术为主,兼具成熟的人工智能产业生态和绿色集约、低碳节能的要求。面向崂山区、XX市工业互联网、智慧海洋经济、智慧金融、智能制造、智能家居、智能轨道交通、智能网联汽车等人工智能特色应用产业发展需要,助力崂山区、XX市培育新一代人工智能产业体系。1.1 项目概况1.1.1 项目建设目标XX人工智能计算中心定位为自
2、主可控人工智能新型基础服务设施,依托XX人工智能计算中心,服务XX及周边地区人工智能产业发展,打造全国性人工智能创新发展标杆。推动人工智能产业在崂山区、XX市形成产业集群,支撑XX优势产业集群智能化持续领先,如智慧海洋经济,面向海洋感知、海洋管控、海洋经济服务和海洋环境保护等需求,结合人工智能信息技术和智慧海洋融合协同服务平台,助力未来智慧海洋创新体系及示范应用,打造人工智能应用服务高地。力争通过3年时间,将计算中心建设成为产业智能化升级的新引擎,产教融合的加速器,产业聚集的制高点,引人育人留人的强磁场,成为XX打造智能经济强市和数字先锋城市的智能基座。1.1.2 项目建设内容为满足XX科技创
3、新、人才培养和产业智能化转型对人工智能公共算力和服务的需求,本期计划建设总算力不低于100PFlops三16人工智能计算中心,用于人工智能训练任务,支撑海量训练数据并加速模型训练过程,提升模型精度,加速人工智能算法创新及应用进程;及人工智能应用验证,验证模型在实际场景中的应用效果,支撑应用的测试和验证。项目参考数据中心设计规范(GB50174-2017)打造满足XX人工智能计算中心业务发展需求的数据中心机房,建设可满足XX人工智能中心当期算力系统及配套的数据中心,数据中心基建基础设施考虑算力系统的后续扩展性,按照满足约300PFlops三16规模人工智能算力系统容量设计。硬件基础设施是XX人工
4、智能计算中心的核心基础,主要包含AI算力硬件系统、AI算力使能子系统、基础计算硬件系统和网络及安全硬件系统四大系统。AI算力硬件系统作用是提供硬件算力,由人工智能芯片、基于人工智能芯片的服务器构成。AI算力使能子系统作用是使能硬件性能;基础计算硬件系统包含平台服务系统、网络服务系统、通用计算系统、存储子系统,是AI集群软件服务、通用计算服务等所需的所有计算、存储硬件基础设施资源;网络及安全硬件系统提供网络互连、高速传输、安全防护等功台匕能。软件基础设施是XX人工智能计算中心的软件基础,可提供算力资源、算力调度以及运营管理等功能,包含人工智能开发平台服务、基础软件平台服务和运营管理平台。人工智能
5、开发平台服务和基础软件平台服务主要管理计算、存储、网络等基础设施硬件,为上层业务和应用的计算、分析和数据存储提供云化平台服务,可支持用户快速构建Al应用和业务,同时支持海量作业的自动调度、分布式训练,对Al计算集群的算力资源进行统一管理、调度和实时分配,可提供算子开发研究、神经网络开发研究、全流程Al开发的能力,可帮助AI开发者和科研人员高效完成算子开发、算法开发、数据处理、模型训练和模型部署等开发活动;运营管理平台主要包含门户网站、用户控制台、运营控制台、三大功能组件,以CMP云管理平台为基础,可提供全自助的线上体验及线下的数字化运营体验功能。1.1.3 项目建设方案1.1.3.1 AI算力
6、硬件系统AI算力硬件系统由人工智能计算集群和生态实验设备两部分组成,主要提供硬件算力,直接支撑人工智能(ArtificialIntelligence,简称Al)的训练和实验任务。AI计算集群应采用高密度、液冷、集成化机柜式交付。人工智能计算集群系统应具备如下能力:1)高计算密度:采用适合张量计算的创新Al芯片架构,可提供高Al算力和高能效比;2)高速互联,集成多级芯片高速互联系统,整个集群的通讯效率与业务效率高,集群部署灵活、可扩展;3)高度集成化,支持简化交付部署流程,机房空间节省;4)主要部件支持模块化集成设计,易于维护扩容。其余组件支持多冗余设计满足可靠性要求;5)支持液冷散热技术,集群
7、系统性能高、绿色节能。AI生态实验设备:可用于人工智能应用验证,验证模型在实际场景中的应用效果支撑应用的测试和验证。1.132 AI算力使能子系统AI算力使能子系统是Al算力硬件系统的嵌入式软件系统,需包含Al芯片使能软件、AI框架软件、AI应用使能软件和AI全流程开发工具链等关键模块。Al算力使能子系统需提供Al芯片使能软件,应配置算力使能引擎,使能Al芯片的运行,具备调度和优化Al芯片处理的能力,支持加速数据处理、优化计算功能。Al算力使能子系统需提供Al框架,应具备如下能力:1、支持端边云场景灵活部署。2、支持优化器并行,用以提升网络性能。3、支持图算融合,提升设备利用率。Al算力使能子
8、系统需提供应用使能软件,如预训练模型库,可帮助开发者解决不同应用、不同框架下的模型选型难、模型训练难的问题。AI算力使能子系统需提供全流程开发工具链,帮助AI开发者快速实现算子开发、模型开发、应用开发的全流程开发工作。1.133 .基础计算硬件系统基础计算硬件系统应承载人工智能计算中心软件基础设施安装部署的功能,需包含管理节点、网络节点、通用计算节点和存储节点。管理节点需部署平台管理软件、基础服务管理和扩展服务管理软件,用于安装部署基础服务、平台管理服务以及其他高阶云服务。网络节点需承载整个算力平台内部以及外部对接的网络服务,需包括软NAT、弹性负载均衡和虚拟路由器,各网络服务能力需以虚拟机形
9、式部署在网络节点上。网络节点需具备所有的网络接入请求,同时需要兼顾安全、限速等功能。通用计算节点需提供计算资源池功能,提供云主机功能,需包含CPU、内存等最基础的计算组件,可为软件基础设施各模块提供通用计算能力。存储节点需提供对象存储、块存储、文件存储等能力,并支持通过玄备份软件将用户核心数据备份到对象存储系统上。1.1.3.4 网络及安全硬件系统基于数据中心的高安全性、高扩展能力和可管理性的业务需求,数据中心网络架构的总体规划应遵循结构化、模块化、层次化和安全化的设计原则,网络层次清晰、功能明确,需保证数据资产安全和管理方便。1.1.3.5 微模块机房数据中心的设计必须满足当前的各项需求,又
10、需要满足面向未来快速增长的发展需求,并采用合理、经济、节能环保的技术方案和措施,满足国家规范要求,确保通信生产安全运行,建设成节能环保的绿色建筑。因此数据中心的建设必须是高质量的、可靠的、灵活的、开放的、先进的。基础计算硬件系统、网络及安全硬件系统等设备,采用微模块机房设计方案,密闭热通道+行级精密空调。投标商需选用国内优秀解决方案产品,据第三方调查机构ICTReSearCh发布最新报告,在中国模块化机房产品与UPS产品市场中,品牌市场占有率在国内排名前五。微模块机房内机柜总个数224,42U标准机柜。制冷需采用密闭热通道+行级精密空调,密闭冷通道布局,采用水冷行级精密空调,单台净冷量不小于4
11、5kw(进水温度15度,出水温度20度,回风干球温度35度),微模块配置行级空调需采用Nl冗余设计。人工智能计算设备的直接冷源由前端的2台CDU提供。人工智能计算设备和微模块采用智能小母线方式。配置机房管理系统,管理系统软件需具有软件著作权;对模块内配电柜、精密空调、通道内温湿度、通道内漏水检测、烟雾、视频等设备具备不间断监控功能;部件故障或参数异常时,支持采取颜色、E-maihSMS和声音告警等多种报警方式;支持记录历史数据和报警事件;所有监控信息支持标准北向WebService接口给管理平台集成接入;支持机房3D视图管理。1.1.3.6 人工智能开发平台服务人工智能开发平台可基于硬件基础设
12、施的组网特点实现对算力资源的统一管理、调度和监控,支持对算力资源进行统一的分配,支持Al模型的一站式开发,支持标注、算法调试、模型开发训练、模型推理部署等功能。AI开发者可基于该平台能够进行大规模Al计算场景,并能够提供丰富的人工智能场景应用和APl服务,使能用户在该平台上的一站式人工智能开发和应用部署,提供全流程AI开发的能力,帮助AI开发者高效完成算子开发、算法开发、数据处理、模型训练和模型部署等开发活动。1.1.3.7 基础软件平台服务基础软件平台需具备管理计算、存储、网络、安全等基础设施硬件功能,可为上层AI应用平台和服务提供包括弹性云服务器、云硬盘、对象存储、虚拟私有云、镜像、安全、
13、容器等基础服务,支持标准APl接口和Console等访问方式,支持对资源的全生命周期管理,资源编排、调度和运维,可结合云上安全服务,平台需按等保2.0三级要求建设,保障用户业务的安全性。1.1.3.8 运营管理平台面向XX人工智能相关产业的需求,建设一站式算力服务入口门户。平台统一门户应具备足够的开放性与兼容性,具备较强的扩展与集成对接能力。运营管理平台应包含门户网站、用户控制台、运营控制台等功能组件。1.门户网站:可对平台能力、功能以及产品的价格、使用说明、应用场景等进行宣传展示。可为用户提供综合服务平台,实现产品服务目录、新闻、营销、企业介绍等信息展示功能。可提供产品服务订购、离线反馈信息
14、提交,在线交流反馈、用户注册、SEO等功能。2 .用户控制台:可为企业、个人用户提供AI代客订购类产品订购、变更、续订、退订、操作等资源运营生命周期管理功能。支持产品订购时使用优惠券进行订单费用结算、使用现金帐户、信用额度账户或现金卷帐户进行费用支付功能。可提供企业、个人用户产品订单、账单、充值、发票、合同、优惠卷信息管理功能。3 .运营控制台:可提供运营相关统计数据统计,支持统计分析用户的充值、账单、订单信息等功能。支持以图表的方式展示用户的消费趋势和消费分布及用户账户的余额、到期资源、合同到期等ToP信息。账单管理、合同管理、收支明细、订单管理、发票管理、客户管理、营销管理、折扣管理、运营
15、分析等功能。1.1.3.9硬件系统实施与运维服务1、硬件系统实施服务需提供硬件系统实施服务,需按合同建设内容组织实施、硬件安装、软件部署、系统初始化配置与验收测试等服务,需提供统筹设计方案,协调到货验收,协调各设计方案的关联接口,对各分项建设任务进行测试等服务。需提供针对本项目制定科学、详细、先进的实施方案。方案内容包括但不限于实施目标与任务、部署内容、部署策略、工作计划、人员安排,并根据时间进度要求完成实施。项目实施过程中,需保证团队的稳定,项目经理、技术负责人等项目团队核心人员须从合同签署至项目终验全程负责此项目。2、设备运维服务对于硬件系统设备,需提供三年运维服务,需提供热线受理、智能报
16、障、远程问题处理、备件服务、在线技术支持、软件更新授权等服务。XX人工智能计算中心项目设备(转修件)一一一:一一XK设备保修期内供应商要保修除消耗品以外的他件设备。保修期内,如果系统发生故障,供应商经调查故障原因并修复相应的问题。在保修期结束后,产品生命周期内供应商继续提供对产品备件、故障处理、软件修改等运维服务。3、运维驻场服务供应商需提供驻场服务,现场快速解决故障问题,对问题进行定位分析,在平台运营关键时刻给予技术保障,对平台风险给予评估和规避建议,协助预防重大故障的发生,或者在发生故障时可以快速解决故障,帮助用户提升平台运维能力。1.L3.10集群系统技术总成集群系统技术总成,需提供集群
17、系统集成测试与验证、系统实施联调、技术管理等内容,需提供从前期需求调研与场景分析,到后期的交付实施的端到端系统集成服务。集群系统集成测试与验证,需提供全栈人工智能集群系统整体解决方案测试,统一标准和质量,实现标准化集约化建设;围绕业务需求,需提供集成规划和集成验证,以及解决方案场景化适配能力。系统实施联调,支持对AI算力硬件系统、AI算力使能子系统、基础计算硬件系统、网络及安全硬件系统、人工智能开发平台服务、基础软件平台服务、运营管理平台等子系统的对接联调。支持全栈软硬件协同测试,支持液冷技术测试和基于应用负载感知的全栈联动测试。1.2采购清单1.2.1 硬件系统及服务序号名称数量单位1人工智
18、能算力硬件,总算力不低于100P1套XX人工W曾能计算中心项目设备(软硬正:)XX硬件系统及服务FIopsFP162人工智能算力使能子系统1套3基础计算硬件系统,包含管理节点、网络安全节点、通用计算节点和存储节点1套4网络及安全硬件系统,全系统的接入、核心等网络设备和安全设备1套5微模块机房,含电力模块,智能小母线、精密空调,液冷冷量管理系统CDU,UPS和备电系统,机柜等设备及数据中1套心管理系统。6各硬件子系统安装部署服务;提供3年原厂运维服务。1套1.2.2软件系统及服务序号名称数量单位1软件系统及服务人工智能开发平台,提供海量作业的自动调度能力和深度学习训练能力,实现对Al集群的算力资
19、源进行统一管理和调度,提供神经网络开发研究和全流程Al开发管理能力,帮助Al开发者和科研人员高效完成算法开发、数据处理、模型训练和模型部署等开发活动。基础软件平台同时为人工智能开发平台提供其依赖的基础软件功能,包括裸金属服务器、虚拟服务器、分布式块存储、对象存储、容器引擎、内网域名解析、终端节点服务、分布式缓存中间件、应用运维管理系统、大数据组件、关系型数据库等。并提供端到端立体安全防御能力,构建起一个完整的立体化防护体系,包括数据加密,软件堡垒机,漏洞扫描,态势感知,主机安全,网页防篡改,数据库审计,WEB应用防火墙,抗DDOS系统,平台主机安全,平台安全管理中心等安全防护能力。3年2运营管
20、理平台,提供展示门户、用户控制台和运营控制台,实现账户管理和计费等运营管理功能。1套3软件系统实施与技术支持服务,各软件子系统规划实施,含3年软件技术年度标准支持服务。I套1.2.3集群系统技术总成序号名称数量单位1集群系统技术总成1、集群系统集成验证:人工智能算力系统平台与服务集成架构验证、方案选型与子系统验证、子系统对接验证、拓扑架构验证、部署方案和演进方案验证,验证策略选择、验证用例选择,解决方案功能验证、性能验证、可靠性验证、安全防护能力验证、可维护性验证;2、系统实施联调:人工智能算力硬件系统、人工智能算力使能子系统、基础计算硬件系统、网络及安全硬件系统、人工智能开发平台服务、基础软
21、件平台服务、运营管理平台等子系统对接联调实施、集群系统集成测试、系统试运行和初验服务。3、技术管理服务:需求管理、技术风险管理、技术问题处理、技术方案管理服务;1次1.3技术服务与参数要求1.3.1 硬件系统及服务序号名称子项规格要求数量单位非稀疏情况下,半精度浮点运算峰值总算力210OPFlopsFP16包含人工智能计算集群算力和人工智能生态实验设备算力1AI算力硬件系统人工智能算力硬件1、人工智能计算集群:国产品牌;设备所采用的CPU和Al处理器为同一厂商;采用液冷散热模式;配置国产CPU个数2200个;配置物理CPU核数26(X)0;(1套配置HBM总容量N14000GB;(提供彩页证明
22、材料)每一个Al处理器提供不少于3条芯片直连的高速互连链路支持DDR4,内存插槽数21700个,内存配置容量243000GB;配置SATASSD硬盘,总容量226800GB;配置NVMePCleSSD硬盘,总容量2268000GB;Al处理器支持直出210OG网络,实现高速互联;2、人工智能生态实验设备系统规格:半精度浮点运算峰值总算力21PFLe)PSFP16,2PFLOPSFP16;通用处理器:配置国产CPU个数216个,内存:支持DDR4,内存插槽数232个,内存配置容量21,024GB;磁盘:配置SATASSD硬盘,总容量215,360GB;2AI算力使能子系统AI算力使能子系统1、A
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 计算中心 项目 需求 设计方案
链接地址:https://www.desk33.com/p-1232553.html