OrionX AI算力资源池化解决方案技术白皮书-V3.4-39页.docx
《OrionX AI算力资源池化解决方案技术白皮书-V3.4-39页.docx》由会员分享,可在线阅读,更多相关《OrionX AI算力资源池化解决方案技术白皮书-V3.4-39页.docx(35页珍藏版)》请在课桌文档上搜索。
1、目录1 引言12 GPU资源池化技术的演进23 OriOnX产品概述34 OrionX产品优势45 OrionX软件架构55.1 OrionX的逻辑架构55.2 OrionX的功能组件65.2.1 OrionXControIIer(OC)65.2.2 OrionXServerService(OSS)65.2.3 OrionXClientRuntime(OCRT)75.2.4 OrionXGUI(OG)75.3 OriOnX组件间通信75.3.1 管理平面85.3.2 数据平面86 部署形态106.1 OrionX与容器云平台集成106.2 OrionX与Kubernetes集成116.3 Or
2、ionX与KVM集成116.4 OrionX与VMWare集成127 OrionX应用场景147.1 OrionX支持大模型场景的典型应用147.1.1 通过“化零为整”功能支持训练147.1.2 通过“隔空取物”功能支持训练157.2 OrionX支持小模型场景的典型应用167.2.1 通过“化整为零”功能支持推理167.2.2 通过“隔空取物”功能支持推理177.3 OrionX支持大/小模型场景的典型应用187.3.1 通过“随需应变”功能支持训练/推理187.3.2 通过“任务队列”功能支持训练/推理任务自动排队197.3.3 通过“抢占”功能支持任务抢占资源207.3.4 通过“显存
3、超分”功能支持多任务叠加常驻217.3.5 通过“双类资源池”功能支持物理/虚拟切换227.3.6 通过“热迁移”功能支持Al任务平滑迁移237.3.7 通过“多ArCh”架构可同时支持Al计算与图形渲染257.4 OriOnX支持多元异构算力芯片288 性能测试308.1 测试环境308.2 测试结果319 兼容性列表33图表目录图表1-1全球人工智能市场规模走势图1图表2-1GPU资源池化技术演进图2图表3-10RloNX架构图3图表5-10RIoNX逻辑架构图5图表5-2管理平面逻辑结构图8图表5-3数据平面逻辑结构图9图表6-1。RQNX与容器云平台集成10图表6-2。RIoNX和KU
4、BERNETES集成11图表6-3ORIONX和KVM集成12图表6-50RIC)NX和VMWARE集成13图表7-1通过化零为整功能支持训练15图表7-2通过隔空取物功能支持训练16图表7-3通过化整为零功能支持推理17图表7-4通过隔空取物功能支持推理18图表7-5通过随需应变功能支持训练/推理19图表8-1模型推理测试结果31图表8-2模型训练测试结果321引言当下,全球各国都在加速人工智能布局,将其作为战略性技术之一。作为较早发布人工智能战略的国家,中国政府将人工智能技术视为产业变革的核心力量,人工智能不仅是技术创新,更是推动经济发展、社会进步、行业创新的重要驱动力。“十四五”规划纲要
5、更是将新一代人工智能作为要攻关的七大前沿领域之一,鼓励加速人工智能前沿基础理论突破、专用芯片研发、深度学习框架等开源算法平台构建,促进学习推理与决策、图像图形、语音视频、自然语言识别处理等领域创新,加速人工智能与诸如大数据、物联网、边缘计算等数字信息技术的融合发展,促进产业优化升级、生产力整体跃升。德勤在2020上半年发布的全球人工智能发展白皮书预测数据表明:2025年世界人工智能市场将超过6万亿美元;中国人工智能核心产业规模到2020年将增长至1600亿元,带动相关产业规模超过一万亿元。皴确住图表1-1全球人工智能市场规模走势图作为AI市场中的重要组成,以GPU、FPGA等为主的AI加速器市
6、场发展也随之水涨船高。根据IDC中国加速计算市场报告,预计2021年人工智能加速服务器市场规模将达到56.9亿美元,相比2020年增长61.6%,到2025年,中国人工智能加速服务器市场将达到108.6亿美元,其五年复合增长率为25.3%。与此同时,由于缺乏高效经济的Al算力资源池化解决方案,导致绝大部分企业只能独占式地使用昂贵的Al算力资源,带来居高不下的AI算力使用成本;由于缺少对异构算力硬件支持,用户不得不修改Al应用以适应不同厂商的Al算力硬件。这会加剧AI应用开发部署复杂性、提高AI算力投入成本并导致供应商锁定。2GPU资源池化技术的演进GPU资源池化技术从初期的简单虚拟化,到资源池
7、化,经历了四个技术演进阶段。 简单虚拟化。将物理GPU按照2的N次方,切分成多个固定大小的vGP(VirtualGPU,虚拟GPU),每个VGPU的算力和显存相等。实践证明,不同的Al模型对于算力、显存资源的需求是不同的。所以,这样的切分方式,并不能满足Al模型多样化的需求。 任意虚拟化。将物理GPU按照算力和显存两个维度,自定义切分,获得满足Al应用个性化需求的VGPU。 远程调用。Al应用与物理GPU服务器分离部署,允许通过高性能网络远程调用GPU资源。这样可以实现Al应用与物理GPU资源剥离,Al应用可以部署在私有云的任意位置,只需要网络可达,即可调用GPU资源。 资源池化。形成GPU资
8、源池后,需要统一的管理面来实现管理、监控、资源调度和资源回收等功能。同时,也需要提供北向API,与数据中心级的资源调度平台对接,让用户在单一界面,就可以调度包括VGPU在内的数据中心内的各类资源。简单虚拟化,4幡BlGPUIl定5,橙2的N次方场分为多个VGPU任意虚拟化梅力198U从力IO弄缁个庾技分为多个VGPU远程调用AI应照与务力扁光华il离性展网路AHAiiIfUIMGPU资源池化-GPuavGPu4*ewt.一5|口.图表2-1GPU资源池化技术演进图3OriOnX产品概述趋动科技的Ori。IIX(猎户座)AI算力资源池化解决方案已经实现了上述四个阶段的技术功能,可以为用户提供GP
9、U资源池化的整体解决方案。OrionX帮助客户构建数据中心级AI算力资源池,使用户应用无需修改就能透明地共享和使用数据中心内任何服务器之上的AI加速器。OriOnX不但能够帮助用户提高AI算力资源利用率,而且可以极大便利用户Al应用的部署。KtWtfiMS芯片1m*v日堂无人系跳wuc8*CPU16GPU4GPU039GPU0.5*GPUOaGPU任小GPUTcnsorFIow,Pytorch,PaddIePaddIeNVCaffeCUDAjNeUWarejDTK图表3-IOrionX架构图OrionX通过软件定义Al算力,颠覆了原有的Al应用直接调用物理GPU的架构,增加软件层,将AI应用与
10、物理GPU解耦合。AI应用调用逻辑的VGPU,再由OriOnX将vGP需求匹配到具体的物理GPU。OrionX架构实现了GPU资源池化,让用户高效、智能、灵活地使用GPU资源,达到了降本增效的目的。4OriOnX产品优势OrionX通过构建GPU资源池,让企业内的Al用户共享数据中心内所有服务器上的GPU算力。Al开发人员不必再关心底层资源状况,专注于更有价值的业务层面,让应用开发变得更加便捷。OrionX产品有如下优势: 提高利用率O支持将GPU切片为任意大小的VGPU,从而允许多Al负载并行运行,提高物理GPU利用率。o提高GPU综合利用率多达3-10倍,1张卡相当于起到N张卡的效果,真正
11、做到昂贵算力平民化。 高性能O相比于物理GPU,OrionX本地VGPU性能损耗几乎为零,远程VGPU性能损耗小于2%。oVGPU资源隔离,并行用户无资源互扰。 轻松弹性扩展o支持从单台到整个数据中心GPU服务器纳管,轻松实现GPU资源池的横向扩展。O全分布式部署,通过RDMA(IB/RoCE)或TCP/IP网络连接各个节点,实现资源池弹性扩展。 灵活调度o支持Al负载与GPU资源分离部署,更加高效合理地使用GPU资源。oCPU与GPU资源解耦合,两种服务器分开购买、按需升级、灵活调度,有助于最大化数据中心基础设施价值。 全局管理o提供GPU资源管理调度策略。oGPU全局资源池性能监控,为运维
12、人员提供直观的资源利用率等信息。 对Al开发人员友好o-键解决Al开发人员面临的训练模型中GPU/CPU配比和多机多卡模型拆分问题,为算法工程师节省大量宝贵时间。5OrionX软件架构5.1OrionX的逻辑架构一个典型的OrionXGPU资源池的逻辑架构中包含了OrionXController(OC)OrionXServerService(OSS)sOrionXClientRuntime(OCRT)、和OliOnXGUl(OG)等功能组件。OrionX的各功能组件可以根据用户环境需求被部署在单服务器上,也可以被分布式地部署在数据中心的多个物理机、虚拟机或者容器环境中。在分布式的部署环境中,各
13、功能组件可以通过多种类型的网络建立连接,从而把数据中心的GPU资源管理起来,形成一种可以被全局共享的计算资源,对Al应用提供可远程访问的、可灵活切分的、可聚合的弹性GPU算力。OrionX的逻辑架构如下图所示。应用OrionXClientRuntimeTensorFIowIPyTorchITtnsorFIowPyTorchOrionXClientRuntime虚拟机/容器J虚拟机/容器Memory/NetworkOrkControlleroCenterOrionXServerServiceOrionXServerServiceOrionXServerServiceGPUGPUNode1GPUG
14、PUGPUNode2CPUCPUNode3图表5-1OriorlX逻辑架构图CUDA(ComputeUnifiedDeViCeArChiteCtlJre)是由NVidia公司定义且公开推广、维护的一种GPU编程接口。从2007年推出之后,经过十几年生态培育,己经成为GPU编程的一个事实标准。大部分流行的Al框架,例如TenSorFIOW、PyTorch.MXNet和PaddIePaddIe都是基于CUDA编程接口开发。OrionX在管理物理GPU之后,通过模拟CUDA标准接口,为各种Al应用提供个与NvidiaCUDASDK接口功能一致的运行环境,从而使得Al应用透明无感知地运行在OrionX
15、GPU资源池之上。OrionX不仅在单服务器上模拟了CUDA标准接口,并且通过分布式部署各功能组件,能够提供分布式的CUDA运行环境。5.2 OrionX的功能组件5.2.1 OrionXControIIer(OC)OrionXController是GPU资源池的核心管理调度模块,其他所有OrionX的功能组件都直接或者间接通过网络连接到OrionXCOntrOlIer,并与其保持信息同步。为了实现OriOnXGPU资源池的统一管理以及资源调度,节点IP地址、物理GPU信息、虚拟GPU信息以及应用任务信息等都会汇总至该组件。一个OrionXGPU资源池可以只部署一个OrionXControll
16、er0为了提高OrionX的可靠性,可以进行2+1冗余备份。OriOnXCOntrOlIer提供如下功能: 各个分布式功能组件的服务注册、服务发现功能。 弹性虚拟GPU的调度分配功能。 多副本高可用的元数据存储和管理。 1.icense管理。 提供运维所需要的各种RestAP1.5.2.2 OrionXServerService(OSS)OrionXServerService发现并管理物理节点上的GPU资源,同时把物理GPU的计算能力通过OriOnX的高性能私有协议提供给数据中心内的各个物理节点,以及各个物理节点上的虚拟机、容器。OrionXServerService部署在OriOnX资源池内
17、的每一个节点上,包括GPU节点和应用所在的节点。OrionXServerService提供如下功能: 发现和管理物理GPU资源。 把物理GPU资源抽象成弹性的VGPU。 执行Al应用的GPU计算任务。 支持虚拟机、容器的网络隔离。5.2.3 OrionXClientRuntime(OCRT)OrionXClientRuntime是一套兼容NvidiaCUDA编程环境的运行环境,模拟了CUDA的运行时接口。当Al应用在使用NVidiaGPU进行计算的时候,会自动调用OrionXClientRUntime,由于OrionXClientRuntime提供和NvidiaGPU兼容的CUDA接口,因此应
18、用无需修改,可以透明无感知地运行在一个虚拟的GPU环境下。OrionXClientRuntime部署在每个应用环境下,替代原有的NvidiaCUDASDK。OrionXClientRuntime提供如下功能: 兼容CUDA接口。 自动完成虚拟GPU资源的申请、释放、弹性伸缩等功能。 支持虚拟机、容器和宿主机的网络隔离。5.2.4 OrionXGUI(OG)OrionXGUI给运维提供一个友好的GUI界面,方便管理员对OrionX整体资源池进行全面管理。OriOnXGUl提供如下功能: 分级的运维账号登录与管理。 查看各组件的部署拓扑以及详情。 多维度、多角度查看资源池的资源使用情况。 细粒度管
19、理资源池内的资源。 日志、监控及告警功能设置。5.3 OrionX组件间通信OrionX的各个功能组件通过管理平面网络和数据平面网络进行通信,共同完成GPU资源池的管理以及GPU资源的调度等功能。5.3.1 管理平面在部署OrionX时,使用基于TCP/IP网络的管理平面,来承载整个系统的管理工作。通过管理网络,分布在各个节点的功能组件都保持和OrionXController同步。管理平面逻辑结构如下图所示。OrionXGUI2+1高可用OrionXController图表5-2管理平面逻辑结构图通过私有的同步协议,分布式部署的各个功能组件具有如下特点: OrionXController支持多
20、副本、高可用的部署模式。 各个功能组件启动的次序无要求。 当某一个功能组件从错误中恢复之后,可以自动同步到正确的状态。5.3.2 数据平面在应用运行的过程中,应用所在环境和GPU物理节点之间的数据传输使用的是OrionX的数据面。该数据面支持多种后端数据传输载体,包括TCP/IP以太网络、RoCERDMA.InfinibandRDMA,ShareMemOry等。数据面具有如下的特点: 高带宽、低延迟。 同时支持多种传输协议,根据优先级自动使用高性能的传输方式。 支持虚拟机、容器和宿主机之间的TCP/IP网络隔离。4PyTorchITensorFlowPyTorcIlITensorFlawOri
21、onXClientRuntime虚拟机/容OrionXServerServiceGPUGPUOrionXClientRuntimeOHOnXSerVerSerViCeGPUGPU图表5-3数据平面逻辑结构图6部署形态OrionX的各个组件,支持宜接部署在裸金属服务器上,即安装操作系统后,直接以Binary形式部署,也支持容器化部署。OriOnX具备适配多种1.inUX操作系统和云平台的能力,因此,OriOnX具有多样化的部署形式。OrionX支持CentOS.Ubuntu、Debian等1.inux发行版本,同时支持基于KVM的虚拟机云平台和基于Docker的容器云平台。尤其是支持原生容器,并
22、实现了和Kubernetes的平滑对接。6.1 OriOnX与容器云平台集成OrionX支持原生容器,各个组件都可以通过容器镜像方式部署。在容器环境中,客户只需要使用OrionX组件提供的启动脚本,就可以一键完成OriOnX的组件安装,轻松实现GPU资源池化。OrionX的容器部署方式,将GPUDrivers.CUDA、CUDNN和NCC1.等软件栈都下沉到宿主机上,容器内部只需要安装OrionXClientRuntime和机器学习框架,即可运行Al应用,大大简化了客户算法工程师运维、管理Al基础架构的工作。Al应用机器学习框架TenSOrFloW等OrtonXClientRuntimeDoc
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- OrionX AI算力资源池化解决方案技术白皮书-V3.4-39页 AI 资源 化解 方案 技术 白皮书 V3 39

链接地址:https://www.desk33.com/p-1417503.html