欢迎来到课桌文档! | 帮助中心 课桌文档-建筑工程资料库
课桌文档
全部分类
  • 党建之窗>
  • 感悟体会>
  • 百家争鸣>
  • 教育整顿>
  • 文笔提升>
  • 热门分类>
  • 计划总结>
  • 致辞演讲>
  • 在线阅读>
  • ImageVerifierCode 换一换
    首页 课桌文档 > 资源分类 > DOCX文档下载  

    计算机行业AI服务器专题研究.docx

    • 资源ID:1050538       资源大小:367.62KB        全文页数:29页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    计算机行业AI服务器专题研究.docx

    计算机行业Al服务器专题研究AI服务器:ChatGPT训练热潮有望带动AI服务器需求ChatGPT:大模型+Transformer架构,带动并行计算需求大厂布局ChatGPT类似产品,或将带来底层算力需求。ChatGPT发布之后,引发了全球范围的关注和讨论,国内各大厂商相继宣布GPT模型开发计划。据各公司官网,2023年2月7日,百度宣布将推出ChatGPT类似产品文心一言,预计今年3月展开内测;2月8日阿里宣布阿里版ChatGPT正在研发中,目前处于内测阶段;2月9日,字节跳动旗下AILab宣布正在开展ChatGPT和AIGC相关研发,未来将为PICO提供技术支持;2月10日,京东旗下言犀人工智能平台推出产业版ChatGPT-ChatJD',我们认为,随着国内互联网厂商陆续开展ChatGPT类似产品研发,GPT大模型训练热潮或将带来底层算力需求快速释放。AI模型对算力的需求主要体现在训练和推理两个层面。当前主流的人工智能算法通常可分为训练和推理两个阶段。据IDC数据,2021年中国人工智能服务器工作负载中,57.6%的负载用于推理,42.4%用于模型训练。据IDC预计,到2026年AI推理的负载比例将进一步提升至62.2%。具体来看:1)训练阶段:基于充裕的数据来调整和优化人工智能模型的参数,使模型的准确度达到预期。对于图像识别、语音识别与自然语言处理等领域的复杂问题,为了获得更准确的人工智能模型,训练阶段常常需要处理大量数据集、做反复的迭代计算,耗费巨大的运算量。2)推理阶段:训I练阶段结束以后,人工智能模型已经建立完毕,已可用于推理或预测待处理输入数据对应的输出(例如给定一张图片,识别该图片中的物体),此过程被称为推理阶段。推理阶段对单个任务的计算能力要求不如训练那么大,但是由于训练出来的模型会多次用于推理,因此推理运算的总计算量也相当可观。图表1:中国人工智能服务E工作负载及预测物理同练<H<:IDC.华«标充ChatGPT算力需求场景包括预训练、Finetune及日常运营。从ChatGPT实际应用情况来看,从训练+推理的框架出发,我们可以将ChatGPT的算力需求按场景进一步拆分为预训练、FinetUne及日常运营三个部分:1)预训练:主要通过大量无标注的纯文本数据,训练模型基础语言能力,得到类似GPT-1/2/3这样的基础大模型;2)Finetune:在完成预训练的大模型基础上,进行监督学习、强化学习、迁移学习等二次或多次训练,实现对模型参数量的优化调整;3)日常运营:基于用户输入信息,加载模型参数进行推理计算,并实现最终结果的反馈输出。图衰2: ChatGPT算力需求研究框架GPT-1GPT-2SFTjI 青学习RM 奖励摸 5!¼¼ft 推理计鼻PpO强化学习迂秒学习信息文.互IMI来源:OpenAI,华鑫研完预训练阶段:单次算力需求取决于模型参数量,最高可达3640PFIop/s-dayChatGPT基于Transformer架构,进行语言模型预训练。GPT模型之所以能够高效地完成大规模参数计算,我们认为离不开TranSfOrmer架构的加持。拆解TranSfOrmer架构来看,核心是由编码模块和解码模块构成,而GPT模型只用到了解码模块。拆解模块来看,大致分为三层:前馈神经网络层、编码/解码自注意力机制层(Self-Attention自注意力机制掩码层,其中:1)注意力机制层主要作用在于计算某个单词对于全部单词的权重(即Attention),从而能够更好地去学习所有输入之间的关系,实现对文本内在关系的理解和更大规模的并行计算;2)前馈神经网络提供了对数据信息的高效存储及检索;3)掩码层在这一过程中帮助模型屏蔽位于计算位置右侧尚未出现的单词。因此,相较于前代深度学习架构RNN,Transformer架构可以实现更大规模的并行计算,大大提升了计算效率ffi3:TranSfOnner解码模块拆解THETRANSFORMER解码模块9前情神经网络I:编解码自注意力机制III:自注意力机制持码I、InPUl<s>robotmustobey:CSDN.单一大模型路线下,需要完成大规模参数计算。以GPT-3模型为例,随着模型朝更大体量的方向演进,参数量从GPT-3Small的1.25亿个增长到GPT-3175B的1746亿个,一次训练所需的计算量从2.6PFIops-day增至3640PFIops-day与此同时,在不同学习样本(包括小样本、单一样本、零样本)条件下的模型,随着参数量的提升均实现不同幅度的上下文学习能力改善,外在表现为语言准确率的提升。我们认为,随着大模型训练表现出越来越强大的实战能力,未来或将成为NLP训练的主流选择。图表4:不同NLP模型参数量及训练算力对比模型总计算*(PFIop/s-day)总计算量(Flops)泰歙量(百万个)令牌效量(十亿)T5««T56mall2.08E+001.80E+20601000T5-Base7.64E+006.60E+202201000T5-Large2.67E+012.31E+217701000T5-3B1.04E+029.00E+213000IOooT5-11B3.82E+023.30E+22110001000BERT模型BERT-Base1.89E+001.64E+20109250BERT-Large6.16E+005.33E+20355250ROBERTa-Base1.74E+001.50E+211252000ROBERTa-Large4.93E+014.26E+213552000GPT模型GPT-3Small2.60E+002.25E+20125300GPT-3Medium7.42E+006.41E+20356300GPT-3Large1.58E+011.37E+21760300GPT-3XL2.75E+012.38E+211320300GPT-32.7B5.52E+014.77E+212650300GPT-3.7B1.39E+021.20E+226660300GPT-313B2.68E+022.31E+2212850300GPT-3175B3.64E+033.14E+23174600300LanguageModelsareFew-ShotLearners,OpenAI.2020.三5:携着模型参数量增长,不同学习样本模型的冷碎度均有发升AggregatePerformanceAcrossBenchmarks- FeWShot - One Shot80 - ZmoSbotParameters in LM (BiaiOnS)If来算:LanguageModelsareFew-ShotLearners,OpenAI.2020.推理阶段:预计单月运营算力需求约7034.7PFIop/s-dayChatGPT近一月访问量为8.89亿次。据SimiIarWeb数据,2023年1月以来ChatGPT官网日访问量持续攀升,从1月初的日均千万次级别,到1月底日均两千万次,再到2月中旬的三千万次级别,随着软件效果的广泛传播,用户访问次数愈发频繁。加总近一月(2023/1/17-2023/2/17)ChatGPT官网访问量数据来看,可得ChatGPT月访问量为8.89亿次。三6:ChatGPT官冏日访问量(百万次) Desktop4035302520151050MobileWeb1-11-41-7MO1-131-161-191-221-251-281-312-32-62-92-122-15:SimiIarWeb预计日常运营单月所需算力约7034.7PFIops-dayo日常运营过程中,用户交互带来的数据处理需求同样也是一笔不小的算力开支。据前文,近一个月(2023/1/17-2023/2/17)ChatGPT官网总访问量为8.89亿次。据Fortune杂志,每次用户与ChatGPT互动,产生的算力云服务成本约0.01美元。基于此,我们测算得2023年1月OPenAl为ChatGPT支付的运营算力成本约889万美元。此外,据Lambda,使用训练一次1746亿参数的GPT-3模型所需花费的算力成本超过460万美元;据OPenAI,训练一次1746亿参数的GPT-3模型需要的算力约为3640PFIops-dayo我们假设单位算力成本固定,测算得ChatGPT单月运营所需算力约7034.7PFIops-dayoffl<7:ChatGPT单月运营算力成本测算单月访问量8.89亿次X 单次访问算力成本0.01美元Hf¼¼4:SimiIarWeb,Fortune,华明克代冏Finetune阶段:预计ChatGPT单月Finetune的算力需求至少为1350.4PFIops-day模型迭代带来Finetune算力需求。从模型迭代的角度来看,ChatGPT模型并不是静态的,而是需要不断进行Finetune模型调优,以确保模型处于最佳应用状态。这一过程中,一方面是需要开发者对模型参数进行调整,确保输出内容不是有害和失真的;另一方面,需要基于用户反馈和PPO策略,对模型进行大规模或小规模的迭代训练。因此,模型调优同样会为OpenAI带来算力成本,具体算力需求和成本金额取决于模型的迭代速度。预计ChatGPT单月Finetune算力需求至少为1350.4PFIOPs-day0据IDC预计,2022年中国人工智能服务器负载中,推理和训练的比例分别为58.5%.41.5%o我们假设,ChatGPT对推理和训练的算力需求分布与之保持一致,且已知单月运营需要算力7034.7PFIop/s-day、一次预训练需要算力3640PFIops-dayo基于此,我们进一步假设:1)考虑到AI大模型预训练主要通过巨量数据喂养完成,模型底层架构变化频率不高,故我们假设每月最多进行一次预训练;2)人类反馈机制下,模型需要不断获得人类指导以实现参数调优,以月为单位可能多次进行。由此我们计算得ChatGPT单月Finetune算力成本至少为1350.4PFIOP/s-day。ChatGPT需要的服务器:AI训练型服务器+AI推理型服务器随着计算场景扩展,算力硬件也在发生变化。在传统软件架构下,主要的模式都是CS模式,服务端大多是单机处理几千个轻量请求。而在边缘计算场景下,需要数万台服务器处理上亿个重负载请求。边缘计算机本质上是用CES模式取代CS模式,当前的互联网IT架构已经从CS模式,逐步向CDN服务为核心的CES模式转变。但当前的CDN模式比较大的局限性在于缺乏灵活性,不能解决边缘上非结构化数据存储和处理的需求,引入Edge端(边缘端)就是为了解决CS模式下无法处理的业务。而在AI训练场景下,计算量及数据类型的变化导致C-E-S又无法满足集中大算力需求,计算架构回归C-S,并向高效率并行计算演变。SA8:计算架构演变过程PC云计算边壕计算AI训练CS架构C-ES架构cs架构只有收件,没有瓜务从软件到戚务大演贵依时建鼻力分收运行环埼可拄福瓦中心依M从他件划算丈算力臬中资料来琼:CSDN,华泰晴£服务器作为算力硬件核心,面向不同计算场景分化演进。我们认为,计算架构的变化是推动服务器技术演进的关键变量。从计算场景来看,随着计算架构从PC到云计算,到边缘计算,再到AI训练,服务器需求也在发生相应变化。从单一服务器更加强调服务个体性能,如稳定性、吞吐量、响应时间等。云数据中心服务器对单个服务器性能要求下降,但更强调数据中心整体性能,如成本、快速部署和交付。边缘计算场景下,开始出现异构计算等复杂环境计算,对数据交互实时性要求有所提升,需要在边缘端设立单独的服务器设施。而AI服务器主要专为人工智能训练设计,数据类型以向量/张量为主,多采用大规模并行计算以提升运算效率。图裹9:服务器类型演变过程PC云计算边壕计算AJinltt云数据中心边缘服务器Al服务器单个值务B姓能妥求下注.史加气调数据中心的今体找髭:鼠本.快速0箸、t+.异构计算标淮化运雄2座手”复余环境大烷根井行计算计算效率高:CSDN.同一技术路线下,服务器面向数据处理需求持续迭代。复盘主流服务器发展历程来看,随着数据量激增、数据场景复杂化,不同类型服务器发展驱动力也有所差异。具体来看:1)通用服务器:传统通用服务器的发展与计算机架构发展同步,通过处理器的时钟频率、指令集并行度、核数等硬件指标的提升优化自身性能发展较为缓慢。2)云计算服务器:云计算的概念于20世纪80年代提出,仅20年后就有较为成熟的产品推出,如VMware的VMwareWorkstation和亚马逊AWS等。2010年随着OpenStack开源,阿里云、华为云等项目相继布局,云计算行业快速走向成熟。3)边缘计算服务器:边缘计算概念孵化于2015年,仅2年后就有诸如亚马逊AWSGreengrass.谷歌GMEC等边缘计算平台产生,并在微软的带领下提前进入技术并购期。4)AI服务器:AI服务器最早由思科在2018推出,专为人工智能、机器学习的工作服务而设计,硬件架构更加适合AI训练场景下的算力需求。ffl*10: B矣主流履务S友及历程复叁云计算服务器:大规模数据处理需求下的商业模式变革数据量激增带来大算力需求,云计算服务器应运而生。通用服务器通过提高硬件指标提升性能,而随着CPU的工艺和单个CPU的核心数量接近极限,通用服务器性能难以支持数据量激增带来的性能需求。云计算服务器则通过虚拟化技术,将计算和存储资源进行池化,把原来物理隔离的单台计算资源进行虚拟化和集中化。最终以集群化处理来达到单台服务器所难以实现的高性能计算。同时,云计算服务器集群的计算能力可以通过不断增加虚拟化服务器的数量来进行扩展,突破单个服务器硬件限制,应对数据量激增带来的性能需求。云计算服务器节约部分硬件成本,降低算力采购门槛。早期大规模数据处理成本极高,原因在于通用服务器的购置和运维成本居高不下。传统服务器中均包含处理器摸块、存储模块、网络模块、电源、风扇等全套设备,而云计算服务器体系架构精简,省去重复的模块,提高了利用率。同时云计算服务器针对节能需求,将存储模块进行虚拟化,并去除了主板上的非必要硬件,降低了整体计算成本,并通过流量计费模式,使得更多厂商可以负担算力开支,降低了算力采购门槛。通用JlI务云计算服务升级通用服务器云计算服务器边缘服务器:高数据密度和带宽限制下保证低时延边缘计算在云计算的基础上引入边缘层。边缘计算是在靠近物或数据源头的网络边缘侧,为应用提供融合计算、存储和网络等资源。在体系架构上,边缘计算在终端层和云层之间引入边缘层,从而将云服务扩展到网络边缘。其中终端层由物联网设备构成,最靠近用户,负责收集原始数据并上传至上层进行计算;边缘层由路由器、网关、边缘服务器等组成,由于距离用户较近,可以运行延迟敏感应用,满足用户对低时延的要求;云层由高性能服务器等组成,可以执行复杂计算任务。图表12:边壕计算架构边埋从终场反.8±曹自青科来源:GSMA,隼«研£边缘计算较云计算在实时性、低成本和安全性等方面有优势:1)实时性:边缘计算将原有云计算中心的计算任务部分或全部迁移到与用户距离更近的网络边缘进行处理,而不是在外部数据中心或云端进行,因此提高了数据传输性能,保证了处理的实时性。2)低带宽成本:终端产生的数据无需远距离传输至云端,避免带宽成本。同时,边缘计算机制中,边缘层可对终端产生数据进行预处理,从而降低云计算中心的计算负载。3)安全性:边缘计算在本地设备和边缘层设备中处理大部分数据而不是将其上传至云端,减少实际存在风险的数据量,避免数据泄露危险。图表13:边壕计算对比云计算边*计算云计鼻U标应用晨务3节点的位直客户端与服务K的遇信网络可戚务的设备数量提供的瓜务类型物JK网所移动应用一般互JuHl应用边镖问络(内关、WiFi、接入点和蜂寓£站)敲摄中心无城同城H.4G/5G不M数十亿计数百万计基于本地信息限务耳于全局信息的展务CSDN.AI服务器:更适合深度学习等AI训练场景AI服务器采取GPU架构相较CPU更适合进行大规模并行计算。通用服务器采用CPU作为计算能力来源,而AI服务器为异构服务器,可以根据应用范围采用不同的组合方式,如cpugpu、cputpu、cpu其他加速卡等,主要以GPU提供计算能力。从ChatGPT模型计算方式来看,主要特征是采用了并行计算。对比上一代深度学习模型RNN来看,Transformer架构下,AI模型可以为输入序列中的任何字符提供上下文,因此可以一次处理所有输入,而不是一次只处理一个词,从而使得更大规模的参数计算成为可能。而从GPU的计算方式来看,由于GPU采用了数量众多的计算单元和超长的流水线,因此其架构设计较CPU而言,更适合进行大吞吐量的AI并行计算。CPU内部结构图裹14:GPU内部结构受迨合进行大规模并行计算ALUALUControlALUALUCacheDRAM青科来我:CSDN.华泰研究深度学习主要进行矩阵向量计算,AI服务器处理效率更高。从ChatGPT模型结构来看,基于Transformer架构,ChatGPT模型采用注意力机制进行文本单词权重赋值,并向前馈神经网络输出数值结果,这一过程需要进行大量向量及张量运算。而AI服务器中往往集成多个AIGPU,AIGPU通常支持多重矩阵运算,例如卷积、池化和激活函数,以加速深度学习算法的运算。因此在人工智能场景下,AI服务器往往较GPU服务器计算效率更高,具备一定应用优势。图表15:GPUJR务器与Al屐务器的区别GPU履务KAl*3主要用途主要用于由给处理,如游戏注彖.视桢编辑等土要用于人工智能和机25学可任务计算转征Ifc各大量的浮点运鼻单元和高度并行的架构配备更多的矩阵地算单元.针时滓度学习算法遗疗了优化处度对R簸,协商效地处理大量的图“数提能修高收地处理大量的数学造鼻应用炀呆一网大受用给,¾J>H4)Hf机一学习的一UI崔青声料来源:ChatGPT.华泰研义AI服务器分类方式有两种:1)按应用场景:Al服务器按照应用场景可以分为深度学习训练型和智能应用推理型。训练任务对服务器算力要求较高,需要训练型服务器提供高密度算力支持,典型产品有中科曙光X785-G30和华为昇腾Atlas800(型号9000、型号9010推理任务则是利用训练后的模型提供服务,对算力无较高要求,典型产品有中科曙光X785-G40和华为昇腾Atlas800(型号3000、型号3010)o2)按芯片类型:AI服务器为异构服务器,可以根据应用范围调整计算模块结构,可采用CPU+GPU.CPU+FPGAxCPU+TPUxCPU+ASIC或CPU+多种力口速卡等组合形式。目前,产品中最常见的是CPU+多块GPU的方式。图表16:Al服务3分臭常见的AI服务器分为四路、八路、十六路。一般来说,通用服务器主要采用以CPU为主导的串行架构,更擅长逻辑运算;而AI服务器主要采用加速卡为主导的异构形式,更擅长做大吞吐量的并行计算。按CPU数量,通用服务器可分为双路、四路和八路等。虽然AI服务器一般仅搭载1-2块CPU,但GPU数量显著占优。按GPU数量,AI服务器可以分为四路、八路和十六路服务器,其中搭载8块GPU的八路AI服务器最常见。图表17:Al服务需与通用及务淤路敷注:AI极寿3路M蜡GPU敕量、通用很多2S珞我指CPU数量黄料来源:浜潮信息富网、宁杨代网.华泰研完AI服务器采用多芯片组合,算力硬件成本更高。我们以典型服务器产品为例拆解硬件构成,可以更清晰地理解两类服务器硬件架构区别:以浪潮通用服务器NF5280M6为例,该服务器采用12颗第三代IntelXeon可扩展处理器,据英特尔官网,每颗CPU售价约64000万元,故该服务器芯片成本约64000-128000;以浪潮AI服务器NF5688M6为例该服务器采用2颗第三代IntelXeon可扩展处理器+8颗英伟达A800GPU的组合,据英伟达官网,每颗A800售价104000元,故该服务器芯片成本约96万元。S4118:通用服务器、Al履务器内部结构对比漉潮英ft及畀器NF5280M6* 三汽 Intel ×o 单俊;64000尤12ChatGPT需要的芯片:CPU+GPUxFPGAsASICChatGPT带动大模型训练热潮,AI服务器需求有望放量GPT模型训练需要大算力支持,或将带来AI服务器建设需求。我们认为,随着国内厂商陆续布局ChatGPT类似产品,GPT大模型预训练、调优及日常运营或将带来大量算力需求,进而带动国内AI服务器市场放量。以GPT-3175B模型预训练过程为例,据OPenAI,进行一次GPT-3175B模型的预训练需要的算力约3640PFIops-dayo我们假设以浪潮信息目前算力最强的AI服务器NF5688M6(PFIop/s)进行计算,在预训练期限分别为3、5、10天的假设下,单一厂商需采购的Al服务器数量分别为243、146、73台。图表19:AS词练需要的Al服务器数量测算参数量发训练需要的算力浪潮NF5688M6H务S计预训练先成时间JR务X采购数量模型名称(忆)(PFIop/s-day)算速度(PFIop/s)(天)(台)GPT3175B1746.03640.053243GPT-3175B1746.03640.055146GPT-3175B1746.03640.051073资料来源:OpenAk浪潮犍息胃网、华AI大模型训练需求火热,智能算力规模增长有望带动AI服务器放量。据IDC数据,以半精度(FP16)运算能力换算,2021年中国智能算力规模约155.2EFL0PSo随着AI模型日益复杂、计算数据量快速增长、人工智能应用场景不断深化,未来国内智能算力规模有望实现快速增长。IDC预计2022年国内智能算力规模将同比增长72.7%至268.0EFLOPS,预计2026年智能算力规模将达1271.4EFLOPS,2022-2026年算力规模CAGR将达69.2%o我们认为,AI服务器作为承载智能算力运算的主要基础设施,有望受益于下游需求放量。困表20:中国智能算力规模及颈测资科来琼:IDC,华泰力克国产厂商布局丰富产品矩阵,占据全球AI服务器市场领先地位浪潮信息、联想、华为等国产厂商在全球AI服务器市场占据领先地位。全球市场来看,AI服务器市场份额TOPlO厂商中,国产厂商占据4席,累计市场份额超35%,其中浪潮信息以20.2%的份额排名第一。国内市场来看,AI服务器市场集中度较高,排名前三的供应商为浪潮信息、宁畅和华为,CR3达70.40%o我们认为,国产厂商凭借强大产品竞争力,已经在国际市场占据一定领先地位,未来随着AI算力需求释放,有望充分受益于产业成长机遇。18及21:202IHl全球AjIL务8审埼光格局S4.22:202IHl中国Al联务8市场免格局浪潮信息:Al服务器产品矩阵丰富,产品力获国际认可。目前公司AI服务器主要产品型号包括NF5688M6,NF5488A5等,据公司官网,2021年上述两款AI服务器在国际权威AI基准测试MLPerf榜单中,获得医学影像分割、目标物体检测、自然语言理解、智能推荐等7项训练冠军,可满足包括自然语言理解等在内的多项AI训练需求。此外,公司在AI领域的积累还包括AI资源平台、AI算法平台等,具备大量算力解决方案实施经验。图表23:浪潮信息主臬Al服务器产品姮阵华为:Al服务器融合自研加速卡与英特尔CPUo公司AI服务器为Atlas800推理服务器系列,旗下有型号3000s型号3010.型号9000和型号9010o其中,型号3000基于昇腾310芯片,型号3010基于Intel处理器,型号9000基于华为鲸鹏920+昇腾910处理器,型号9010基于Intel处理器+华为昇腾910芯片。旗舰级芯片加持下,产品最高拥有2.24PFLOPSFP16的高密度算力并在设计结构优化下芯片间跨服务器互联时延可缩短1070%。S<24:华为主要Al服务声产品型号3000型号3010型号9000型号9010新华三AI服务器覆盖各训练负载要求,结合软件平台构建AI完整生态。公司主要产品型号包括R4900G5、R5300G5、R5500G5等,可分别针对不同训练负载要求,满足大小规模的推理/训练任务。软件层面,公司通过新华三傲飞AI/HPC融合管理平台,全面提升Al作业效率约32%o2022年,新华三被国际权威分析机构Forrester认定为大型人工智能系统成熟厂商,可以提供可靠的服务器解决方案。同时,新华三AI服务器在MLPerf测评中共斩获86项世界第一。图表25:新华三主要Al服务X产品H3CUreServerR4900R4950G5龙头厂商有望充分受益于算力需求释放。我们认为,随着ChatGPT待动大模型训练热潮,以人工智能训练为代表的智能算力需求逐步释放,有望带动AI服务器放量。拆解AI服务器成本来看,GPU等算力芯片为核心组件,先进算力产品受美国出口管制影响,但可通过采购A800实现基本替代。我们认为,浪潮信息等国产头部厂商凭借丰富产品矩阵和强大产品竞争力,占据全球AI服务器市场主要份额,未来有望充分受益于服务器需求释放。GPU算力芯片为核心组件,国产替代未来可期拆解来看,AI服务器主要成本包括算力芯片、内存、存储等。据IDC的2018年服务器成本结构拆分数据,芯片成本在基础型服务器中约占总成本的32%,在高性能或具有更强运算能力的服务器中,芯片相关成本占比可以高达50%-83%o以机器学习型AI服务器为例,其主要成本由GPU、CPU、内存及其他部件组成,其中GPU成本占比最高,达到72.8%o图表26:2018年全球1务再成本结构拆分CPUGPUmemorystorage其他AI服务器算力芯片以GPU为主。据IDC,2022年国内人工智能芯片市场中GPU芯片占据主要市场份额达89.0%,主因GPU芯片并行计算架构更加适合于复杂数学计算场景,可以较好支持高度并行的工作负载,因此常用于数据中心的模型训练,以及边缘侧及端侧的推理工作负载。止矽卜,其他主要的人工智能芯片还包括NPUxASICFPGA等。一般而言,AI服务器中算力芯片需求数量取决于服务器设计性能要求,需求种类取决于成本、功耗、算法等指标。常见的算力芯片组合,如8xGP+2xCPU、4xGPU+2xCPU、8xFPGA+lxCPU、4xFPGA+lxCPU等。ffl27:2022年中国人工智能芯片市场规模占比npuASICFPGA9.6%I。、=。4GPU<GPNPU-ASIC-FPGAGPU结构计算单元+显存。计算单元StreamingMultiprocessor):计算单元的功能是执行计算。其中每一个SM都有独立的控制单元、寄存器、缓存、指令流水线。显存(GlobalMemory):显存是在GPU板卡上的DRAM,容量大但速度慢。1,计算单元底层架构:显卡核心构成多样,不同核心专注不同任务。以英伟达为例,GPU显卡构成包括tensorcorexcuda和rt等部分。tensorcorez即张量核心,是英伟达GPU上一块特殊区域,针对AI矩阵计算设计,可显著提高AI训练吞吐量和推理性能。CUDA则是英伟达生态中的通用结构,一般包括多个数据类型,适用于视频制作,图像处理,三维渲染等常见图像处理和计算工作。图表28:关伟达GPU计算单元架构皆样来源:SEGMENT,隼*研比2、TOPS和TFLOPS是常见算力衡量单位:1)OPS:OPS(OperationsPerSecond)指每秒执行的操作次数,是整数运算的单位,常在INT8、INT4等计算精度下度量算力性能。其中TOPS(TeraOperationsPerSecond)代表处理器每秒钟可进行一万亿次(1012)操作,类似的单位还有诸如GOPS.MOPS,均代表每秒的操作次数。2)FLOPS:FLOPS(Floating-pointOperationsPerSecond)指每秒所执行的浮点运算次数,常在单精度(FP32半精度(FP16)等计算精度下度量算力性能。TFLOPS(TeraFloating-pointOperationsPerSecond)代表处理器每秒钟可进行一万亿次(1012)浮点运算。虽然TOPS和TFLOPS数量级一样,但前者是衡量操作次数,后者是衡量浮点运算,TOPS要结合数据类型精度(如INT8,FP16等)才能与FLOPS转换。3显存位宽、带宽与容量:显存的主要指标包括位宽、带宽和容量。显存本身与CPU的内存类似,将数据在GPU核心与磁盘间传输。显存位宽是显存在一个时钟周期内所能传送数据的位数,决定了显存瞬时传输的数据量。显存带宽是指显示芯片与显存之间的数据传输速率,由显存频率和显存位宽共同决定,体现了显卡的速度和性能。显存容量决定了显存临时存储数据的多少。目前主流AIGPU芯片包括英伟达HlOOxAlOO以及VlOO等。全球来看,目前用于人工智能训练的AIGPU市场以英伟达为主导,公司旗下先进算力产品主要包括HlOOsA100以及VlOOo对比双精度浮点计算性能(FP64TensorCore)来看,H100xA100xVlOO计算速度分别为67TFLOPS.19.5TFLOPS,8.2TFLOPSo从显存带宽来看,HlOOxA100xVlOO传输速度分别为3TBsx2TBsx900GBsoBB表29:英伟达HIO0、AlOO以及VIOo显卡卡敷对比H100A100V100晶体管数量800化542亿211亿CUDA核心致量1689669125120Tensor核心做量528432640>4<it(t*)5120-b<t5120-bit4096-bitJE存中宽()3TBs2TBs900GBs显存容量(最高)80GB80GB32GBFP64TensorCore67TFLOPS19.5TFLOPS8.2TFLOPSTF32TensorCore989TFLOPS156TFLOPS16.4TFLOPS首发售价(.)2399998759921999先进算力芯片进口受限或为国产AI服务器的瓶颈之一。2022年10月7日,美国商务部工业与安全局(BIS)宣布了针对中国出口先进芯片的管制新规声明。声明规定,满足输入输出(I/O)双向传输速度高于600GBs,同时每次操作的比特长度乘以TOPS计算出的处理性能合计为4800或更多算力的产品,将无法出口至中国。以英伟达AlOO为例以TF32性能测算,即156*32=4992>4800,且传输速度为600GBso基于此,我们可以推断,性能大于等于AlOOGPU的先进算力芯片属于美国出口限制范围。采用英伟达A800服务器或为当前可行替代方案。以浪潮NF5688M6为例,NF5688M6是为超大规模数据中心研发的NVLinkAI服务器,支持2颗Intel最新的IceLakeCPU和8颗NVIDIA最新的NVSwitch全互联A800GPU,单机可提供5PFIops的AI计算性能。对比核心硬件来看,NF5688M6采用英伟达中国特供版芯片一A800,在浮点计算能力、显存带宽、显存容量等性能指标上,与先进算力芯片一AlOO基本一致,主要差异在于芯片的数据传输速度,约为AlOO的三分之二。图袭30:浪潮NF5688M6服务器GPU性能与AlOo基本一致S<31:英伟达AlOO姓能参敕AIMAIMB0G Kl0G SXM四*.32:英伟达A800姓能参敝FPWf.7 TFlOPSFPMTtnwnsmorsCoreFP32W.TFLOPSTEOr F¼l W154 TFLOFS1312 TFLOTS(TF32)FLOATU3U TFLOFS134 TFlOWTemorCcr*FPUTensor312 TFkOPS I «24 TFLOPSeCorMTt Tnv皿 TOPS112“ TOPS*CorGPVMBOG HM20GHBM2GPU 存意mS6ts20”OS大但 Xfl 计 6K 3MK40B(TDP)>rfGPU务 7 个 MlG5 7 个 MlG个 1MB个 IMBnKMPCWSXMXIiM风冷式(MD或ILSM*2 个 GR 的NVM : 400GKVION NVU Mtt FCW 4.0: UW. : M0G8>PCte 4.0 :40BsAeOoABA8OO40GSPC980GBpO80G8SXMFP649.7 TFLof>5FP64 Tensor Core19, TFloPSfp32ImtfiopsTensor Float 32IM TFLOPS 312 TFLOW(TF32)BFLOAT m Tensor312 TFLOPS »24 TFLOPS*CoreFPI6 Tensor Core312 TFLOPS «24 TOPSINT8 Tmor Core524 TOPS 124T0PSGPUMemory 40GB HBM2 0GB HBM2 80GB HBM2 GPUMemoryIaSMGB/l.9SSG82X)9G8*BantMdth Max Thermal2SOW300W400WiDwgnPowfr (TDH MuItHmtanceUpto7MIG* UPto 7 MIGs.UptoTMIGt*GPUSG8IOGBIOGBForm FactorPG (dual-slot air coold or single-SXMslot BquM cooled)InterconnectNVIDIA- NVLmk, Bridg« for 2 GPUs:NVUnk:400GM

    注意事项

    本文(计算机行业AI服务器专题研究.docx)为本站会员(夺命阿水)主动上传,课桌文档仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知课桌文档(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-1

    经营许可证:宁B2-20210002

    宁公网安备 64010402000986号

    课桌文档
    收起
    展开