OrionX AI算力资源池化解决方案技术白皮书-V3.4-39页.docx

上传人：夺命阿水

文档编号：1417503

上传时间：2024-06-15

格式：DOCX

页数：35

大小：590.83KB

《OrionX AI算力资源池化解决方案技术白皮书-V3.4-39页.docx》由会员分享，可在线阅读，更多相关《OrionX AI算力资源池化解决方案技术白皮书-V3.4-39页.docx（35页珍藏版）》请在课桌文档上搜索。

1、目录1 引言12 GPU资源池化技术的演进23 OriOnX产品概述34 OrionX产品优势45 OrionX软件架构55.1 OrionX的逻辑架构55.2 OrionX的功能组件65.2.1 OrionXControIIer(OC)65.2.2 OrionXServerService(OSS)65.2.3 OrionXClientRuntime(OCRT)75.2.4 OrionXGUI(OG)75.3 OriOnX组件间通信75.3.1 管理平面85.3.2 数据平面86 部署形态106.1 OrionX与容器云平台集成106.2 OrionX与Kubernetes集成116.3 Or

2、ionX与KVM集成116.4 OrionX与VMWare集成127 OrionX应用场景147.1 OrionX支持大模型场景的典型应用147.1.1 通过“化零为整”功能支持训练147.1.2 通过“隔空取物”功能支持训练157.2 OrionX支持小模型场景的典型应用167.2.1 通过“化整为零”功能支持推理167.2.2 通过“隔空取物”功能支持推理177.3 OrionX支持大/小模型场景的典型应用187.3.1 通过“随需应变”功能支持训练/推理187.3.2 通过“任务队列”功能支持训练/推理任务自动排队197.3.3 通过“抢占”功能支持任务抢占资源207.3.4 通过“显存

3、超分”功能支持多任务叠加常驻217.3.5 通过“双类资源池”功能支持物理/虚拟切换227.3.6 通过“热迁移”功能支持Al任务平滑迁移237.3.7 通过“多ArCh”架构可同时支持Al计算与图形渲染257.4 OriOnX支持多元异构算力芯片288 性能测试308.1 测试环境308.2 测试结果319 兼容性列表33图表目录图表1-1全球人工智能市场规模走势图1图表2-1GPU资源池化技术演进图2图表3-10RloNX架构图3图表5-10RIoNX逻辑架构图5图表5-2管理平面逻辑结构图8图表5-3数据平面逻辑结构图9图表6-1。RQNX与容器云平台集成10图表6-2。RIoNX和KU

4、BERNETES集成11图表6-3ORIONX和KVM集成12图表6-50RIC)NX和VMWARE集成13图表7-1通过化零为整功能支持训练15图表7-2通过隔空取物功能支持训练16图表7-3通过化整为零功能支持推理17图表7-4通过隔空取物功能支持推理18图表7-5通过随需应变功能支持训练/推理19图表8-1模型推理测试结果31图表8-2模型训练测试结果321引言当下，全球各国都在加速人工智能布局，将其作为战略性技术之一。作为较早发布人工智能战略的国家，中国政府将人工智能技术视为产业变革的核心力量，人工智能不仅是技术创新，更是推动经济发展、社会进步、行业创新的重要驱动力。“十四五”规划纲要

5、更是将新一代人工智能作为要攻关的七大前沿领域之一，鼓励加速人工智能前沿基础理论突破、专用芯片研发、深度学习框架等开源算法平台构建，促进学习推理与决策、图像图形、语音视频、自然语言识别处理等领域创新，加速人工智能与诸如大数据、物联网、边缘计算等数字信息技术的融合发展，促进产业优化升级、生产力整体跃升。德勤在2020上半年发布的全球人工智能发展白皮书预测数据表明：2025年世界人工智能市场将超过6万亿美元；中国人工智能核心产业规模到2020年将增长至1600亿元，带动相关产业规模超过一万亿元。皴确住图表1-1全球人工智能市场规模走势图作为AI市场中的重要组成，以GPU、FPGA等为主的AI加速器市

6、场发展也随之水涨船高。根据IDC中国加速计算市场报告，预计2021年人工智能加速服务器市场规模将达到56.9亿美元，相比2020年增长61.6%,到2025年，中国人工智能加速服务器市场将达到108.6亿美元，其五年复合增长率为25.3%。与此同时，由于缺乏高效经济的Al算力资源池化解决方案，导致绝大部分企业只能独占式地使用昂贵的Al算力资源，带来居高不下的AI算力使用成本；由于缺少对异构算力硬件支持，用户不得不修改Al应用以适应不同厂商的Al算力硬件。这会加剧AI应用开发部署复杂性、提高AI算力投入成本并导致供应商锁定。2GPU资源池化技术的演进GPU资源池化技术从初期的简单虚拟化，到资源池

7、化，经历了四个技术演进阶段。简单虚拟化。将物理GPU按照2的N次方，切分成多个固定大小的vGP（VirtualGPU,虚拟GPU）,每个VGPU的算力和显存相等。实践证明，不同的Al模型对于算力、显存资源的需求是不同的。所以，这样的切分方式，并不能满足Al模型多样化的需求。任意虚拟化。将物理GPU按照算力和显存两个维度，自定义切分，获得满足Al应用个性化需求的VGPU。远程调用。Al应用与物理GPU服务器分离部署，允许通过高性能网络远程调用GPU资源。这样可以实现Al应用与物理GPU资源剥离，Al应用可以部署在私有云的任意位置，只需要网络可达，即可调用GPU资源。资源池化。形成GPU资

8、源池后，需要统一的管理面来实现管理、监控、资源调度和资源回收等功能。同时，也需要提供北向API,与数据中心级的资源调度平台对接，让用户在单一界面，就可以调度包括VGPU在内的数据中心内的各类资源。简单虚拟化,4幡BlGPUIl定5，橙2的N次方场分为多个VGPU任意虚拟化梅力198U从力IO弄缁个庾技分为多个VGPU远程调用AI应照与务力扁光华il离性展网路AHAiiIfUIMGPU资源池化-GPuavGPu4*ewt.一5|口.图表2-1GPU资源池化技术演进图3OriOnX产品概述趋动科技的Ori。IIX（猎户座）AI算力资源池化解决方案已经实现了上述四个阶段的技术功能，可以为用户提供GP

9、U资源池化的整体解决方案。OrionX帮助客户构建数据中心级AI算力资源池，使用户应用无需修改就能透明地共享和使用数据中心内任何服务器之上的AI加速器。OriOnX不但能够帮助用户提高AI算力资源利用率，而且可以极大便利用户Al应用的部署。KtWtfiMS芯片1m*v日堂无人系跳wuc8*CPU16GPU4GPU039GPU0.5*GPUOaGPU任小GPUTcnsorFIow,Pytorch,PaddIePaddIeNVCaffeCUDAjNeUWarejDTK图表3-IOrionX架构图OrionX通过软件定义Al算力，颠覆了原有的Al应用直接调用物理GPU的架构，增加软件层，将AI应用与

10、物理GPU解耦合。AI应用调用逻辑的VGPU,再由OriOnX将vGP需求匹配到具体的物理GPU。OrionX架构实现了GPU资源池化，让用户高效、智能、灵活地使用GPU资源，达到了降本增效的目的。4OriOnX产品优势OrionX通过构建GPU资源池，让企业内的Al用户共享数据中心内所有服务器上的GPU算力。Al开发人员不必再关心底层资源状况，专注于更有价值的业务层面，让应用开发变得更加便捷。OrionX产品有如下优势：提高利用率O支持将GPU切片为任意大小的VGPU,从而允许多Al负载并行运行，提高物理GPU利用率。o提高GPU综合利用率多达3-10倍，1张卡相当于起到N张卡的效果，真正

11、做到昂贵算力平民化。高性能O相比于物理GPU,OrionX本地VGPU性能损耗几乎为零，远程VGPU性能损耗小于2%。oVGPU资源隔离，并行用户无资源互扰。轻松弹性扩展o支持从单台到整个数据中心GPU服务器纳管，轻松实现GPU资源池的横向扩展。O全分布式部署，通过RDMA(IB/RoCE)或TCP/IP网络连接各个节点，实现资源池弹性扩展。灵活调度o支持Al负载与GPU资源分离部署，更加高效合理地使用GPU资源。oCPU与GPU资源解耦合，两种服务器分开购买、按需升级、灵活调度，有助于最大化数据中心基础设施价值。全局管理o提供GPU资源管理调度策略。oGPU全局资源池性能监控，为运维

12、人员提供直观的资源利用率等信息。对Al开发人员友好o-键解决Al开发人员面临的训练模型中GPU/CPU配比和多机多卡模型拆分问题，为算法工程师节省大量宝贵时间。5OrionX软件架构5.1OrionX的逻辑架构一个典型的OrionXGPU资源池的逻辑架构中包含了OrionXController(OC)OrionXServerService(OSS)sOrionXClientRuntime(OCRT)、和OliOnXGUl(OG)等功能组件。OrionX的各功能组件可以根据用户环境需求被部署在单服务器上，也可以被分布式地部署在数据中心的多个物理机、虚拟机或者容器环境中。在分布式的部署环境中，各

13、功能组件可以通过多种类型的网络建立连接，从而把数据中心的GPU资源管理起来，形成一种可以被全局共享的计算资源，对Al应用提供可远程访问的、可灵活切分的、可聚合的弹性GPU算力。OrionX的逻辑架构如下图所示。应用OrionXClientRuntimeTensorFIowIPyTorchITtnsorFIowPyTorchOrionXClientRuntime虚拟机/容器J虚拟机/容器Memory/NetworkOrkControlleroCenterOrionXServerServiceOrionXServerServiceOrionXServerServiceGPUGPUNode1GPUG

14、PUGPUNode2CPUCPUNode3图表5-1OriorlX逻辑架构图CUDA(ComputeUnifiedDeViCeArChiteCtlJre)是由NVidia公司定义且公开推广、维护的一种GPU编程接口。从2007年推出之后，经过十几年生态培育，己经成为GPU编程的一个事实标准。大部分流行的Al框架，例如TenSorFIOW、PyTorch.MXNet和PaddIePaddIe都是基于CUDA编程接口开发。OrionX在管理物理GPU之后，通过模拟CUDA标准接口，为各种Al应用提供个与NvidiaCUDASDK接口功能一致的运行环境，从而使得Al应用透明无感知地运行在OrionX

15、GPU资源池之上。OrionX不仅在单服务器上模拟了CUDA标准接口，并且通过分布式部署各功能组件，能够提供分布式的CUDA运行环境。5.2 OrionX的功能组件5.2.1 OrionXControIIer(OC)OrionXController是GPU资源池的核心管理调度模块，其他所有OrionX的功能组件都直接或者间接通过网络连接到OrionXCOntrOlIer,并与其保持信息同步。为了实现OriOnXGPU资源池的统一管理以及资源调度，节点IP地址、物理GPU信息、虚拟GPU信息以及应用任务信息等都会汇总至该组件。一个OrionXGPU资源池可以只部署一个OrionXControll

16、er0为了提高OrionX的可靠性，可以进行2+1冗余备份。OriOnXCOntrOlIer提供如下功能：各个分布式功能组件的服务注册、服务发现功能。弹性虚拟GPU的调度分配功能。多副本高可用的元数据存储和管理。 1.icense管理。提供运维所需要的各种RestAP1.5.2.2 OrionXServerService(OSS)OrionXServerService发现并管理物理节点上的GPU资源，同时把物理GPU的计算能力通过OriOnX的高性能私有协议提供给数据中心内的各个物理节点，以及各个物理节点上的虚拟机、容器。OrionXServerService部署在OriOnX资源池内

17、的每一个节点上，包括GPU节点和应用所在的节点。OrionXServerService提供如下功能：发现和管理物理GPU资源。把物理GPU资源抽象成弹性的VGPU。执行Al应用的GPU计算任务。支持虚拟机、容器的网络隔离。5.2.3 OrionXClientRuntime(OCRT)OrionXClientRuntime是一套兼容NvidiaCUDA编程环境的运行环境，模拟了CUDA的运行时接口。当Al应用在使用NVidiaGPU进行计算的时候，会自动调用OrionXClientRUntime,由于OrionXClientRuntime提供和NvidiaGPU兼容的CUDA接口，因此应

18、用无需修改，可以透明无感知地运行在一个虚拟的GPU环境下。OrionXClientRuntime部署在每个应用环境下，替代原有的NvidiaCUDASDK。OrionXClientRuntime提供如下功能：兼容CUDA接口。自动完成虚拟GPU资源的申请、释放、弹性伸缩等功能。支持虚拟机、容器和宿主机的网络隔离。5.2.4 OrionXGUI(OG)OrionXGUI给运维提供一个友好的GUI界面，方便管理员对OrionX整体资源池进行全面管理。OriOnXGUl提供如下功能：分级的运维账号登录与管理。查看各组件的部署拓扑以及详情。多维度、多角度查看资源池的资源使用情况。细粒度管

19、理资源池内的资源。日志、监控及告警功能设置。5.3 OrionX组件间通信OrionX的各个功能组件通过管理平面网络和数据平面网络进行通信，共同完成GPU资源池的管理以及GPU资源的调度等功能。5.3.1 管理平面在部署OrionX时，使用基于TCP/IP网络的管理平面，来承载整个系统的管理工作。通过管理网络，分布在各个节点的功能组件都保持和OrionXController同步。管理平面逻辑结构如下图所示。OrionXGUI2+1高可用OrionXController图表5-2管理平面逻辑结构图通过私有的同步协议，分布式部署的各个功能组件具有如下特点: OrionXController支持多

20、副本、高可用的部署模式。各个功能组件启动的次序无要求。当某一个功能组件从错误中恢复之后，可以自动同步到正确的状态。5.3.2 数据平面在应用运行的过程中，应用所在环境和GPU物理节点之间的数据传输使用的是OrionX的数据面。该数据面支持多种后端数据传输载体，包括TCP/IP以太网络、RoCERDMA.InfinibandRDMA,ShareMemOry等。数据面具有如下的特点：高带宽、低延迟。同时支持多种传输协议，根据优先级自动使用高性能的传输方式。支持虚拟机、容器和宿主机之间的TCP/IP网络隔离。4PyTorchITensorFlowPyTorcIlITensorFlawOri

21、onXClientRuntime虚拟机/容OrionXServerServiceGPUGPUOrionXClientRuntimeOHOnXSerVerSerViCeGPUGPU图表5-3数据平面逻辑结构图6部署形态OrionX的各个组件，支持宜接部署在裸金属服务器上，即安装操作系统后，直接以Binary形式部署，也支持容器化部署。OriOnX具备适配多种1.inUX操作系统和云平台的能力，因此，OriOnX具有多样化的部署形式。OrionX支持CentOS.Ubuntu、Debian等1.inux发行版本，同时支持基于KVM的虚拟机云平台和基于Docker的容器云平台。尤其是支持原生容器，并

22、实现了和Kubernetes的平滑对接。6.1 OriOnX与容器云平台集成OrionX支持原生容器，各个组件都可以通过容器镜像方式部署。在容器环境中，客户只需要使用OrionX组件提供的启动脚本，就可以一键完成OriOnX的组件安装，轻松实现GPU资源池化。OrionX的容器部署方式，将GPUDrivers.CUDA、CUDNN和NCC1.等软件栈都下沉到宿主机上，容器内部只需要安装OrionXClientRuntime和机器学习框架，即可运行Al应用，大大简化了客户算法工程师运维、管理Al基础架构的工作。Al应用机器学习框架TenSOrFloW等OrtonXClientRuntimeDoc

23、kerNVDockerRuntimeOrionXServerServiceOrionXController操作系统*GPUDrivers*CUDA图表6-IOrionX与容器云平台集成6.2 OrionX与Kubernetes集成OriOnX为K1.lberneteS提供两个插件，实现与K8S的集成对接。集成后，系统管理员只需要在K8S中，即可完成对GPU资源池中VGPU资源的配置和调度管理。并且，允许系统管理员通过单一接口调度全部数据中心资源，实现SDDC（SoftwareDefinedDataCenter,软件定义的数据中心），这样就简化了运维工作。OriOnX为Kubernetes提供的

24、两个插件是： OrionXKubernetesDevicePlugino通过和OrionXController通讯，获取OrionXGPU资源池信息。o通过Kubernetes定义的DeViCePlugin标准向Kubernetes注册名字为 OrionXKubernetesSchedulerExtenderO提供基于HTTPAPI通讯的松耦合调度扩展功能。o通过配置文件向KUbemeteS注册名字为Apciiatonvb11M图表6-2OrionX禾口Kubernetes集成6.3 OrionX与KVM集成OrionX支持原生KVM,各个组件都可以通过Binary方式部署。在KVM环境中，客

25、户使用OriOnX组件的安装脚本，就可以完成OriOnX的基础部署，轻松实现GPU资源池化。OrionX的KVM部署方式，是将OrionXController和OriOnXServerService以Binary方式部署在宿主机上，将OriOnXClientRUntime部署在VM中，将GPUDriversCUDA、CUDNN和NCC1.等软件栈都下沉到宿主机上。这样，VM内部只需安装OriOnXClientRuntime和机器学习框架，即可运行Al应用，大大简化了客户算法工程师运维管理Al基础架构的工作。基于KVM的云平台，例如OPenStack,OrionX提供全开放的ReStAPl接口，

26、与NOVa组件对接，实现GPU资源池中的vGP资源在OpenStack中的集中配置和调度管理。Al应用机器学习框架TBnSOrFloW等OrtonXChentRuntimeKVMOrionXServerService+OnonXController操作系统+GPUDriversCUDA图表6-3OrionX和KVM集成6.4 OrionX与VMWare集成OrionX支持VMWarevSphere,各个组件都可以通过Binary方式在VM内部署。在vSphere中，将物理GPU通过直通方式全部透传给一个VM,在该VM内部署OriOnXControIIer和OrionXServerService

27、组件，即可轻松实现GPU资源池化。该VM上或者其他VM上的Al应用即可通过OriOnXClientRuntime组件调用虚拟GPU资源，大大简化GPU资源在VSPhere环境中的分配难度，提高GPU资源的调度效率。Al应用机器学习框架TenSOrFIOW等OrionXClientRuntimeOrionXServerService/OrionXControllerVM操作系统+GPUDriversCUDAVMwareESXi图表6-4OrionX和VMWare集成7OriOnX应用场景7.1 OrionX支持大模型场景的典型应用大模型场景如训练场景，对算力资源需求量大，通常会使用一张或者多张G

28、PU卡资源。作为Al算力资源池平台，OriOnX既可以支持单台服务器上的单卡、多卡训练，也可以支持跨设备的多卡训练。7.1.1 通过“化零为整”功能支持训练OrionX支持将多台服务器上的GPU提供给一个虚拟机或者容器使用，而该虚拟机或者容器内的基于分布式训练框架(Horovod或DistributedDataParaIIeI)的Al应用无需修改代码。通过这个功能，用户可以将多台服务器的GPU资源聚合后提供给单一虚拟机或者容器使用。“化零为整”支持训练等大模型场景，为用户的Al应用提供数据中心级的海量算力。Horovod是Uber开源的分布式深度学习框架，旨在使分布式深度学习变得快速且易于使用

29、，使模型训练时间从几天和几周缩短到数分钟和数小时。使用Horovod,可以将现有的训练脚本扩大规模，使其仅用几行Python代码就可以在跨设备的多个GPU上运行。一旦配置了Horovod,就可以使用相同的基础结构来训练具有任何框架的模型，从而随着机器学习技术堆栈的不断发展，轻松地在TenSOrFlOw、PyTorch.MXNet和将来的框架之间进行切换。DiStribUtedDataParaIIeI倘称DDP)是PyTorch自带的分布式训练框架，支持多机多卡和单机多卡分布式训练。DDP属于DataParalleI,可以通过提高batchsize来增加并行度。DDP通过Ring-Reduce的

30、数据交换方法提高了通讯效率，并通过启动多个进程的方式减轻PythonGl1.的限制，从而提高训练速度。图表7-1通过化零为整功能支持训练7.1.2 通过“隔空取物”功能支持训练OrionX支持将虚拟机或者容器运行在一台没有物理GPU的服务器上，通过计算机网络，透明地使用其他服务器上的GPU资源，该虚拟机或者容器内的Al应用无需修改代码。通过这个功能，OriOnX帮助用户实现了数据中心级的GPU资源池，实现了Al应用和GPU物理资源的解耦合，Al应用在一个不满足训练条件的纯CUP服务器上，也一样能够快速调集多个GPU标完成训练任务。“隔空取物”支持训练等大模型场景，既可以调取单台设备的多卡资源给

31、容器或者虚拟机，实现类似单机多卡训练的场景；也支持调取多台设备的多卡资源给容器或者虚拟机，实现类似分布式多机多卡训练的场景。图表7-2通过隔空取物功能支持训练7.2 OrionX支持小模型场景的典型应用小模型如推理、开发、教学实训等场景，对算力资源需求量小，通常不能占满一张GPU卡资源。作为Al算力资源池平台，OrionX可以从算力和显存两个维度，切分GPU。支持将多个小模型任务调度到一张卡，有效提高资源利用率。7.2.1 通过“化整为零”功能支持推理OrionX支持将一块物理GPU细粒度切分成多块vGP,然后分配给多个虚拟机或者容器。每一块vGP的显存和算力都能被独立设置和限制。通过这个功能

32、，用户可以高效地共享GPU资源，提高GPU利用率，降低成本。算力切分的最小颗粒度为原物理GPU算力的1%；显存切分的最小颗粒度为IMB。图表7-3通过化整为零功能支持推理OrtonX7.2.2 通过“隔空取物”功能支持推理OrionX支持将虚拟机或者容器运行在一台没有物理GPU的服务器上，通过计算机网络，透明地使用另一台服务器上的GPU资源，该虚拟机或者容器内的Al应用无需修改代码。通过这个功能，OrionX帮助用户实现了CPU和GPU资源的解耦合。在一些CPU与GPU需要双向平衡的推理场景下，OrionX可以更好的平衡CPU和GPU资源的分配，减少短板资源的发生，拉平数据中心的利用率。“隔空

33、取物”支持推理、开发、教学实训等小模型场景，可以调取单台设备的细粒度卡资源给容器或者虚拟机，将多个小模型应用调用到一张物理GPU中，并严格限制VGPU资源间的隔离，实现资源利用率最大化。图表7-4通过隔空取物功能支持推理7.3 OrionX支持大/小模型场景的典型应用7.3.1 通过“随需应变功能支持训练/推理OrionX支持用户在虚拟机或者容器的生命周期内，动态分配和释放所需要的GPU资源。通过这个功能，OriOnX帮助用户实现了真正的GPU资源动态伸缩，极大提升了GPU资源调度的灵活度。OriOnX支持VGPU资源按需分配、随用随取，最大限度的利用算力资源。不论是大模型训练，还是小模型推理

34、的环境中，用户都可以按照Al模型需求，动态的调整算力资源大小，而无需重启挂载VGPU的虚拟机/容器。OrionX支持VGPU资源预留模式和获取模式：预留模式：和使用物理GPU类似，客户申请的VGPU是独占的，不可被其他用户使用。获取模式：客户申请的VGPU是动态的，只有在客户的Al应用运行时，VGPU资源才锁定到具体的物理GPU,一旦Al应用结束，物理GPU资源及时释放。QPU力,XXMB8WfQPU(M力.XXMB8W图表7-5通过随需应变功能支持训练/推理7.3.2 通过任务队歹功能支持训练/推理任务自动排队当请求vGP资源的训练/推理任务遇到物理GPU剩余资源不足，无法分配的时候，Ori

35、onX支持任务排队能力。OrionX会将任务放入等待队列中，直到队列中前面任务跑完，可调度等待任务所需资源时，任务进入运算状态。OrionX允许对任务进行队列优先级预设，一旦资源缺乏导致任务进入等待队列，按照优先级进行全局排列，优先匹配重要任务。喜荒，虎用机Al1TensorftowPyTorcftOdonXClientRuntimeOriOnXClientRuntimeVGPU(4T00%N力.-三MJ-VGPU：50%翼力.SSUU虚担机Ale4TensorFIowOrtonXCliertfRuntimeOvGPU(2100%lt力.一jma2VGPU(iroo%力.-18.管)Runni

36、ngWaitingGPUHAaoeOrionXGPU算力资源淞GPU务3图表7-6通过任务队列功能支持训练/推理任务自动排队7.3.3 通过“抢占”功能支持任务抢占资源上述“任务队列”中，OrionX允许对某些任务赋予抢占属性，一旦资源不足导致任务进入等待队列，按照抢占属性的特点，该任务将立即分配到可用资源。赋予抢占属性的任务，在OrionX集群剩余资源不足而导致无法分配到资源时，可以通过抢占正在运行的任务，让一部分任务提前退出，这样集群可能就会空出足够的资源分配给该任务。赋予抢占无抢占总性Al4PyTorcnTeneofFlow(50%.力,RunningOrionXGPUil力资源消OPU

37、HB02GPU*务d3OrionXServer8mcaOrtonXCltontRunbmowGPU(2100M.100”Waitin图表7-7通过抢占功能支持任务抢占资源7.3.4 通过“显存超分”功能支持多任务叠加常驻通常推理任务为满足最佳用户体验，会将推理模型常驻显存，24小时不中断，以便拥有最快响应速度。但是这类常驻任务一般算力利用极低，而且潮汐效应明显。OrionX支持多任务潮汐叠加。通过“显存超分”，OriOnX会调用系统内存补充GPU显存，在逻辑上扩大GPU显存的承载容量，从而支持多个常驻显存的长尾任务叠加在同一个物理GPU上，提高单个GPU的承载量，充分利用GPU闲置算力。根据业

38、务特点，OrionX还支持不同任务设置不同优先级，从而保证突发高优先级任务的服务质量。Al推理1TantorFtowPyTOrCh-OrtonXClientRuntimerVGPU(16GS4)4HighPriorityCIYCnWrFtoWAl推理2PyTbfChI-OrionXCbentRuntimeOvGPUC6G显存1.owPriorityOrionXGPUJl力资源池图表7-8通过显存超分功能支持多任务叠加常驻7.3.5 通过“双类资源池”功能支持物理/虚拟切换个别Al任务由于程序本身自有的特殊性，需要直接使用物理NatiVeGPU资源，OrionX支持同时纳管OrionXGPU（即

39、经过OriOnX池化管理的GPU,可以被虚拟化为多个VGPU）,和NativeGPU（即原生GPU,不会被虚拟化）。OrionX能够在一个界面上方便的控制哪些GPU卡初始化上报为OriOnXGPU,哪些GPU卡被初始化上报为NativeGPU。在初始化上报结束以后，依然能够灵活的在OrionXGPU和NativeGPU之间安全的做切换。通过“双类资源池”功能，OrionX可以同时支持Al任务申请NativeGPU或者申请虚拟化之后的OrionXGPU两类不同资源，以应对不同任务资源申请的需求。应用TensorFIowPytorch图表7-9通过双类资源池功能支持物理/虚拟切换7.3.6 通过“

40、热迁移”功能支持Al任务平滑迁移实现资源的调度优化、提升算力资源利用率、提高算力资源可靠性，是OriOnX算力资源池的重要特性。热迁移功能的目标是在不影响用户应用程序运行的情况下，将任务由一组GPU迁移到同节点或其他节点的另一组GPU中，从而实现用户无感的资源池调度。热迁移功能设计由算力池管理员或操作员，有计划性的通过GUI页面或命令行手动触发完成维护工作。迁移的源端和目的端需要采用相同硬件设备、driver/runtime版本，算力任务成功后，按照任务迁移时的原有进度继续执行，不需要重新模型加载和执行。应用场景1：算力池资源负载均衡算力池资源负载均衡，主要应用在推理场景。支持将某些任务运行G

41、PU利用率过高，管理员在计划维护时间通过热迁，将任务迁移到算力资源利用率较低的GPU上，避免容器或虚机重启操作，重新加载程序和模型，带来的时间浪费。实现资源动态调度分配，提高应用运行可靠性。迁移前:迁移后:图表7-10算力池资源负载均衡应用场景2：算力资源碎片整理算力资源碎片整理，主要应用在训练场景，训练任务需要比较多的算力资源，由于算力池长时间对各种任务的调度分配，算力卡上都有任务运行，但算力任务占用资源不高所形成的算力资源碎片。管理员可以在计划维护时间，进行任务热迁移操作，将多个算力任务合并到一张GPU卡上运行，空闲出更多的、较为完整的资源用于训练任务。图表7-11算力资源碎片整理应用场景

42、3：GPU服务器下线维护GPU服务器下线维护，主要应用在GPU物理服务器计划停机维护场景，GPU物理服务器因为硬件故障等原因，需要下线维护。管理员在计划维护时间，通过热迁移将任务迁移到算力池中的其他算力节点上，所有算力任务和应用程序在恢复后仍旧继续运行，减少业务停机恢复程序和模型重新加载的时间，降低对用户操作的影响，有效提升业务系统稳定性。迁移前:迁移后:图表7-12GPU服务器下线维护7.3.7 通过，多Areh”架构可同时支持Al计算与图形渲染OrionX支持Multi-Arch(多Arch)架构，实现客户在单个容器或虚拟机中分配vGPU算力资源，既可以用于AlCUDA模型计算，又可以支持

43、OPenG1.图形渲染。有效支撑了数字场景业务模型计算和渲染同时需要需求。在多Arch架构下，单个容器或虚拟机可运行多协议(CUD+0penG1.)o解决了之前AlCUDA模型计算和OpenG1.图形渲染应用，需要部署在不同容器或虚拟机带来的不便。图表7-13通过多Arch架构可同时支持Al计算与图形渲染应用场景1:虚拟数字人推理场景虚拟数字人推理场景，目前已在金融等行业的虚拟IP形象代言、智能客服、营销等领域快速增长，为客户提供24小时不间断的服务，帮助企业降低人力成本，提升客户体验。业务容器和虚机申请的多ArchvGPU算力资源可以支持AI模型人物自然语言生成和人物动画生成渲染运行在同时运

44、行。2D字人3DCT学人图表7-14虚拟数字人推理场景应用场景2：研究科学计算场景在大学等科研机构研发场景，如：人工智能、生物医药、粒子物理、程序化交易等领域，会使用GPU进行科学计算加速，过程中会使用OpcnG1.将模型计算结果渲染输出。通过多ArChvGPU算力资源可以支持模型计算和图形输出同时运行。图表7-15研究科学计算场景7.4 OrionX支持多元异构算力芯片人工智能技术在政府、金融等行业场景的落地、发展，离不开异构加速算力的支撑和保障，利用软件定义异构算力技术构建异构算力资源池，一方面可以实现资源高效管理和弹性供给，另一方面也可在帮助实现异构算力供给多元化的同时，确保国产芯片全面

45、替代工作的有序推进。OrionX算力池化软件和国产Al加速卡（海光和寒武纪）和国产AI服务器（曙光）的兼容性及可用性进行技术攻关。OrionX算力池化软件可以实现GPU（英伟达）和国产Al加速卡（海光和寒武纪）异构算力混合部署调度能力，统一纳管、统一调度。K身份识SJAl风控IFTBnsorFlow智诧投败智能保险智能营销智能客服智能监管智能投研0PyTorchCaffeONNXAI加速库通信摩视觉库BANG语言MagicMindCNN1.CNC1.CNCVBANGCBANGPy骗译工具丽库/调试&监测工具CPU算力Al算力Docker/VMCPU算力Docker/VMAl算力rio11n-TCPU算力JbDocker/VMDCUDCUM1.UM1.UGPU.W.M1.UflgSS.2.R叫强矢量Al算力GPU图表7-16OrionX支持多元异构算力芯片使用国产中国海光、中国寒武纪、美国英伟达等异构算力加速卡构建Al算力加速资源池，资源池内各类硬件加速卡可通过趋动科技OrionX进行算力抽象，软件化后形成统一的AI家属算力资源提供给上层应用使用。异构算力池化解决方案可在实现多厂商Al算力硬件统一管理、统一调度、