汽车制造行业的数字化转型算力应用案例.docx
目录一、汽车制造行业的研发仿真1(一)前处理2(二)模拟(求解/计算)3(三)后期处理5二、算力在汽车制造行业的数字化转型应用案例6(一)联想XCLOUD算力平台架构61、平台整体功能架构62、多租户管理与运营关键功能73、算力资源管理94、集群运维管理关键功能135、资源运维和监控156、新一代温水水冷基础架构19(二)应用案例效果221、吉利智能仿真平台居中国上榜制造业第一222、吉利星睿智算中心智能仿真平台223、仿真平台构建智能研发新生态234、智能仿真平台进入全球算力500强25图目录图1典型CFD/显式FEA和隐式FEA模拟的文件I/O速率5图2算力平台整体功能架构图7图3关键功能示意截图8图4统一运维入口8图5多租户管理9图6资源数量查看10图7算力资源申请10图8计量计费功能11图9消费概览11图10业务运行状态大屏12图11自定义大屏13图I2集群资源管理13图13裸金属资源管控14图14服务器管理15图15集群资源自动化运维16图16自动化运维模块17图17统一告警能力18图18算力平台资源监控19图19计算集群20图20吉利星睿智算中心23图21汽车设计仿真24图22吉利智能仿真平台入全球算力500强榜单26一、 汽车制造行业的研发仿真汽车开发是一项复杂的系统工程,不仅零件众多而且结构复杂,在整车开发过程中,涉及到流体、结构、温度、电磁、噪音、振动、平稳及车辆动力学等多方面的研究。随着工业技术的迅速发展和消费质量的提高,人们对车辆要求也越来越高,企业对汽车开发周期有了更高的要求。传统的开发方式已经不能满足要求,而CAD/CAE技术应用到汽车开发中,可大幅度提升汽车开发设计的能力,指导新产品开发设计,优化产品结构与性能,降低设计和制造成本增加效益,从而提升汽车生产企业的市场竞争力。CAE技术在汽车设计中主要应用于结构强度分析、NVH(噪音、振动、平稳)分析、疲劳耐久分析、碰撞安全分析、空气动力学分析等方面。汽车结构强度分析是保证汽车安全性、可靠性的重要指标,是CAE技术在汽车工程中应用最广泛的方面。汽车结构强度分析一般都是应用有限元法对汽车的结构进行数值计算。NVH(噪音、振动、平稳、)分析涉及车汽车产品的舒适性,直接关系到消费者的体验。疲劳耐久性能分析是评价汽车各主要结构部件在功能失效前所经历的时间。采用CAE方法是利用仿真的方式,采用道路试验载荷,计算车身及关键部件连接处载荷与疲劳寿命,减少道路模拟试验,缩短成本和时间。碰撞安全分析中,使用CAE技术对汽车碰撞过程进行仿真模拟,解决碰撞大变形的非线性问题,减少实车模拟碰撞高试验成本。汽车空气动力学主要是研究汽车行驶时,即与空气产生相对运动时,汽车周围的空气流动情况和空气对汽车的作用力(称为空气动力),以及汽车的各种外部形状对空气流动和空气动力的影响。随着CAE仿真的模型越来越复杂,仿真精度提高,计算划分的网格数量越来越多,对仿真计算的设备要求也越来越高,采用高性能计算提供的算力才能支撑庞大的计算。汽车行业在从传统制造向智能制造转型,汽车行业研发也在向智能化转型,借助于科学计算手段使用CAD/CAE工具加速研发过程。在新车型的研发阶段,要用多种CAD/CAE工具软件,典型的CAD/CAE工作流程有三个阶段:前处理、模拟(求解/计算)、后处理。()前处理在前处理(预处理)阶段,对设计模型定义/设计几何结构或工艺,通过计算机辅助设计CAD软件通常用于对底层几何结构或过程进行建模,将设计的物理属性以及环境和物理约束和载荷应用于计算模型。在CFD和FEA分析的情况下,必须使用网格将基本几何结构划分为较小的离散域(单元);通常称为网格生成或网格化。笔记本电脑、工作站和远程可视化服务器通常用于大多数预处理CAD/CAE工作和网格生成。这些解决方案通常具有更高端的图形卡以加速可视化,并且可能需要大量的内存,具体取决于计算模型的大小。更大的CFD和FEA网格生成可以“卸载”到具有更多计算或内存资源的服务器上。在一些应用中,网格生成可以使用到并行处理技术。(二)模拟(求解/计算)在模拟阶段,使用基础物理的适当数学公式来模拟(求解/计算)模型或过程。此阶段通常有大量的计算工作负载,需要完整的高性能解决方案来运行大多数情况下也是非常必要的。计算工作量取决于计算模型的大小,小型计算模型可以在工作站和笔记本电脑上运行,而大型计算模型通常在高性能计算解决方案上运行,以利用多个服务器、GPU加速、高速互连网络和并行存储系统等来加速求解/计算过程,提高生产效率。在模拟阶段,通常使用显式和隐式两种数值方法来求解基本数学方程:显式法在显式方法中,当前物理值仅取决于先前的时间步长/迭代数据,因此可以通过计算表达式在网格中的任何位置求解方程。这需要更多的计算,但占用的内存相对较少。隐式法在隐式方法中,物理值不依赖于先前的时间步长/迭代;必须对网格中的所有单元同时求解方程。此方法更占用内存,因为所有需要计算的内容都必须提交到内存中,因此需要占用更多的内存,同时也需要适量的计算。不同的方法具有不同的计算特点和性能要求,通常CFD和显式FEA模拟具有相同的计算和存储特性,比如可以很好地扩展到多个核心和服务器(支持MPl跨节点并行);计算对内存和计算敏感(需要更多的内存和CPU核心);计算期间的小量的文件输入/输出(I/O)操作;模拟开始时的大量文件I/O操作,以便将网格从存储系统读入内存(存储系统的单流的能力)。模拟结束时的大量文件I/O操作,以便写入存储系统。这些文件通常是由网格和相关物理值组成的最终输出文件(存储系统的单流的能力)。用户可以指定在模拟过程中以不同的时间间隔写入检查点(checkpoint)输出文件,这可能会导致短暂的重要文件I/O操作(配合作业调度系统支持CheCkPOint)。计算所需要的内存的数量取决于计算模型的大小,ANSYSFIUent和MechanicaKDassaultSystemesABAQUS/Exp1icit>LSTCLSDYNA>OpenFOAM和SienIenSSTAR-CCM+等应用程序都属于上述类别。而通常隐式FEA模拟具有以下计算和存储特性:不能很好地扩展到多个核心和服务器(在SMP上的性能更突出);计算对比内存来讲,内存比计算更敏感(同时兼具计算敏感和内存敏感);计算时进行大量的文件I/O操作;通常需要大量的内存;数据在内存中计算可用于减少文件I/O操作的数量;可以从GPU加速中获益(部分应用)。ANSYSMechanicaKDassaultSystemesABAQUS/Standard和MSCNastran等应用程序都属于上述类别。下图描述了典型CFD/显式FEA模拟与典型隐式FEA模拟的文件I/O速率。TVPiCalCFD/ExplicitFEASimUIationTypicalImplicitFEASimulation在CFD/ExplicitFEA模拟的开始和结束时,有大量频繁的文件I/O操作,但这些事件是简短的。在计算期间,存在最小的文件I/O操作。然而,对于隐式FEA模拟,在整个模拟过程中存在大量的文件I/O操作。(三)后处理在后期处理阶段,将模拟的结果呈现并显示给用户。结果可以是输出,如表格、绘图、数据文件和动画,也可以在软件中以3D表示形式查看。计算机、工作站和远程可视化服务器通常用于大多数后处理工作。这些解决方案通常具有更高端的图形卡以加速可视化,并且可能需要大量的内存,具体取决于计算模型的大小。如果使用自动化脚本来生端出,则可以将一些后处理工作“卸载”到服务器。大多数函数都是单线程进程。在汽车研发CAD/CAE使用过程中,为提高效率,大多采用多团队协同的方式,单台的笔记本、工作站或服务器已经不能满足这样的要求,将前处理、模拟和后处理在算力平台上运行,能够更快的解决设计中的问题。二、 算力在汽车制造行业的数字化转型应用案例(一)联想xQ。Ild算力平台架构顶层设计基于客户应用场景需求构建“高性能计算+私有云”的融合型平台模式。基于这样的顶层设计,方案提供了一种快捷、弹性、安全、物理隔离并可实现资源灵活调用的基于联想xCloud私有云平台的云化高性能计算系统。它能提供CPU和GPU的混合硬件算力服务,主要应用于汽车行业CAE场景相关的高性能计算、深度学习的相关业务需求,完成了高性能计算和私有云的良好结合,实现了高性能计算即服务的转化。并以此实现了平台运营所需的租户隔离环境以及高性能计算计算资源的弹性定制,敏捷部署,降低成本,提高资源利用率,具有更大的灵活性。1、平台整体功能架构联想高性能计算运维管理平台是联想XCloud混合云管理解决方案中针对算力平台环境,以高性能计算典型的裸金属计算节点为主要管理资源对象,综合多租户运营管理,集群资源管理,全栈监控,自动化运维,智慧大屏等关键能力的一体化算力运维管理平台。该平台基于同一个工作台,同时提供面向高性能计算资源租户和高性能计算平台管理员不同角色的资源申请,资源使用,资源维护等场景的日常运维工作。联想算力运维管理平台提供标准的ReStfUlAPl接口,支持和吉利集团现有的其他运维系统进行数集成,包括CMDB,BPM等系统。平台整体功能架构图如下所示:ng;单累口公共服务智大屑白功化模圻货源池层展J忙图2算力平台整体功能架构图自动化运维IOS交付自动化I i1主或据后运营管理2、多租户管理与运营关键功能(1)统一访问功能控制该平台的公共服务组件为管理中心模块,包括组织管理,认证方式管理,邮件服务,用户及权限管理,审计日志,用户个人信息管理,通知服务等。用户使用邮箱登录系统,系统支持本地登录,LDAP登录,SAML登录等方式,支持双因子、验证码等增强校验。关键功能示意截图如下:图3关键功能示意截图(2)统一运维入口平台支持一个管理页面入口进行全产品的资源管理。不同用户登录界面的可见功能模块,可见的数据类型组件,可见数据范围,基于包括公共服务模块中的用户权限管理和功能实现模块的权限在内的双层管控机制进行控制。a*ftO flStf如W密 m 。口存牌管理M 白G化应惺½frw9中拶“大«1可交付590 GB图4统一运维入口幺察裁合9«23“4 3MGeM写照Drrk明平台支持高性能计算管理员为各个子公司创建不同的租户,配置不同租户的用户、组织、角色和租户管理员,并为各个租户配置不同的折扣。平台支持租户管理员自助申请资源、创建项目,并为不同的项目分配资源配额。支持资源的可视化大屏的自主配置,并支持设置不同角色的查看权限,动态监视各个项目的资源情况以及定期生成账单。图5 多租户管理3、算力资源管理算力平台管理员可以通过租户管理功能查看所有租户和项目的资源数量。联想集团总部联想柒国总部I应用实例 联想集团成都研突院 3526联想集团浙江研究院联想集团上海研兄院Kig集团深研施联照集团新加城研究院kfc5依里中心19Q慢索MQJU*H虚常和右云1613F股务理睡都iu?VPCW匹拟胤络230Q理卷?云平台VFC&IUH 子网 I1690Q搜傲负载均衡1328图6资源数量查看(1)资源申请平台支持各租户用户在线申请算力资源,且支持灵活自定义资源审批流程。不同租户申请资源过程中所看到的折扣可进行灵活配置。用户须知M三P.区修务ISHHi入口已灭吟12月5日iEiXfflUW附基本配置如果塔膝团it!CMUL仍电击”创腌L3KQ资酣贩WM数探鱼数量95部应用环境应刖名称制第晒号»ft½MWJKl*.更名IEil度局员电话蜘 3911911破AMffflAT0odMnher¾*><-*>MMKOif8KOOM'KCMkHfrrxO*jLJUL*图7算力资源申请(2)计计费运营管理组件具备算力平台的计量计费管理能力。平台支持按裸金属节点和存储空间计费,同时按时间和使用量的方式进行账单计算。算力平台管理员可看到全局账单,租户用户可通过系统得到定期生成的资源账单,并支持账单下载。运首件理,资箱定价DEV01DY-OIiroic-alinone访格维位人花市/CXY云主机类型定位规格定价保准(元/小时)更新时间操作chunxue102022-05-279iimH除历史定价2M-10&42022-06-06W做IM除历史定价rMniInrGrYS-门AVOr&S202206依耙2-8-03202KJ5-31痂就*徐历史定价HO99992022-6-25««m所史定价图8计量计费功能运营管理/消费假兑孑均月的筠10tM 12。 家口“潮份¼U0EV012022-<J220223价费心势9OCOt(00*noc<ooXkOOKDO第OCaa)Ooc)o°3322-022022-(XC2-4M2(22-06触-062(SJ7图9消费概览(3)智慧大屏该平台的智慧大屏模块将提供高性能计算集群运营大屏,支持预置大屏和自定义大屏,全方位多维度实时展示高性能计算集群的运行和资源使用状态。预置大屏的具体样式将根据项目实际环境和客户需求进行调整。业务运行状态AIM徽3931O图10业务运行状态大屏自定义大屏为低代码开发模式,提供可视化大屏在线编辑器,支持自定义数据来源,自定义每个内容的不同呈现形式,支持拖拽方式,所见即所得,快速实现业务数据大屏的个性化定制。图11自定义大屏4、集群运维管理关键功能(1)集群资源管理联想算力运维管理平台中的DClM主要面向算力平台管理员,支持其对整个算力集群的日常运维工作。机房信息,机柜信息,物理设备等信息的录入和管理;设备上架和下架流程管理;以及机房3D可视化视图。I s 不昇寸正$9"2303 舲»230MP RU *X*ruttntn mo172 303100i7io37i7Q2ev正萼T正耳M2 B JZ 必28&13OB<4300EBAU01-»M220»(O«c!oiez PHU3SBNBrsaooxweinfvdiFSn1036,IOM6,21NMCMX图12集群资源管理(2)裸金属资源管控联想算力运维管理平台中的裸金属资源管控模块支持物理服务器的批量模板注册、转管理、转可用等状态管理;支持裸金属RAlD配置;批量化电源管理及安装部署;支持对裸金属网卡的网络类型添加标签进行标识;也能够实现对高性能计算资源申请工单的无缝对接,实现快速安装系统。它支持Flat和VLAN两种网络类型,能够实现多租户下的网络隔离;IP分配支持自动分配及手动指定两种方式、裸金属调度支持自动调度及手动指定两种方式,可广泛应用于高性能计算服务场景。格* J304(8KFtfttt: l"2.2ta5l ifn z> ,an : “a : denna :序K 4: 43O<<BDRflawts>-n犹<*电,状*,nilK>UMH11Z状*:必5、资源运维和监控联想算力运维管理平台支持纳管外部物理服务器,用于管理已部署业务系统的物理服务器,通过IPMl管理此类物理服务器的开关机状态。图14服务器管理(1)集群资源自动化运维联想算力运维管理平台中的自动化运维模块AWP同时面向高性能计算平台管理员和租户用户,支持其对高性能计算资源维护和使用过程中的日常运维工作。为保障自动化运维的安全性和规范性,平台内嵌操作系统账号管理和远程访问组件。该组件为高性能计算平台用户提供统一的操作系统账号申请,审批和自动创建能力,同时支持账密托管,服务器访问权管理,离职员工名下账号自动转移等功能保障高性能计算平台在操作系统账号层面的规范管理。AlFKM*HRARrc<vE«rgQ*HSHAS机制IlttMOTOn*111OrW&CRTnRtnA配界含观图15集群资源自动化运维在安全管控的基础上,自动化运维模块提供统一远程访问组件能力。支持多窗口服务器远程访问,文件上传/下载等常用运维功能。同时远程访问还会针对系统配置的高危命令进行发现、拦截、二次确认、校验码校验等特殊处理,并提供透明、完整的账号登录和操作录屏,用于审计支持和运维行为追溯。在安全管控的基础上提供便捷的运维支撑。为满足高性能计算平台日常高频运维需求,平台将提供开箱即用的场景。包括高性能计算节点交付,高性能计算节点下线,操作系统重装,常见软件部署,巡检等。®r衿丁白质化IWM曹法瓯棺杵支身工iS:s:鲁:图16自动化运维模块自动化运维模块AWP提供自动化操作创建和自动化编排能力。高性能计算集群运维管理员和租户人员都可以基于该能力,使用在线脚本剪辑器,开发基于PythOn、Shell>Ansible、Bat、Powershell等不同类型脚本的自动化任务。所有自动化操作基于发布管控流程,以及仅可在有权限的资源范围内运行的双重管控机制下支撑后续的运行控制。(2)监控告警关键功能联想算力运维管理平台中的全栈监控模块提供统一告警能力。租户用户可通过告警总览查看其使用计算节点的告警信息,并可以根据实际需求对安装在计算节点上的中间件,数据库等进行统一监控。高性能计算平台管理员则可查看所有网络设备,存储设备,服务器设备,以及所有操作系统层面的监控告警。我的及用我的服务器史存Cbud Managemert PlatfamCMPGovernflnce更名10.122 73.1371/521/5IG 122. Iaa 12图17统一告警能力监控模块支持所有用户通过自服务的模式,针对管辖范围内资源设定不同的监控策略。支持动态阈值监控,以及和自动化工作任务集成,从而实现监控告警故障自愈。(3)算力平台资源监控监控模块对高性能计算平台内的关键资源网络设备、服务器设备、操作系统均能实现全面监控的能力,同时支持日志查询和分析能力。9MSN图18算力平台资源监控6、新一代温水水冷基础架构项目采用温水水冷解决方案,包括DW612S水冷机箱及SD650V3系列服务器,集成了联想超过15年的水冷服务器设计及使用经验,采用铜制的冷却板覆盖CPU、GPU、内存、硬盘、IO插卡等主要发热部件实现散热的同时,创新性的将水冷技术使用到机箱甚至电源模块等功耗部件上,通过在冷却板循环水路中高达50。的常温水循环系统,覆盖近98%的服务器整机系统发热,实现全设备无风扇设计,更加环保及静音。(1)超高计算密度与功耗密度系统优越的散热特性,实现单机柜超高能耗设备及高密度部署。该项目搭载了IntelEagleStream平台的水冷专用CPU,通过良好散热实现对单颗350W能耗CPU的良好支持,提升了单节点LinPaCk性能;同时基于高密度设计,在单个42U机柜部署60台双CPU计算节点(最大可部署84台),提升整机柜LinPaCk性能。在全系统可提供3.93PfloPS(双精度)的理论计算峰值的情况下,仅采用13个机柜既承载了普通数据中心中需要上百个机柜部署的设备,计算密度是通用数据中心的8倍,大大提高了空间使用率,从而为打通下一期6万核统一建设提供了空间基础。图19计算集群(2)温水冷带来的绿色节能中国数据中心的平均PUEI.45,意味着每用1度电计算,就需要额外0.5度电给计算设备进行散热。本套平台由于采用了联想第六代温水冷技术,系统PUE(能源利用效率)可降低至1.1,与通用风冷计算设备相比节省电力并减少C02排放约24%。由于98%的计算器件产生的热量将通过冷板中流动的温水带走,采用无风扇设计,士4兀全消除了系统风扇功耗;同时水循环系统采用506()C温水,因此可以充分利用自然环境散热,在中国绝大部分区域可采用无压缩机设计,从而大大节省了外部散热能耗。(二)应用案例效果1、吉利智能仿真平台居中国榜上制造业第一中国车企首次登上全球算力500强榜单,吉利星睿智算中心.智能仿真平台算力位居中国上榜制造业第一。2023年5月22日,在德国汉堡举行的国际算力大会(ISC2023)上,第61届全球算力500强最新榜单出炉,吉利星睿智算中心智能仿真平台(GeelyWiseStar-Dubhe)跻身榜单第185名,算力位居中国上榜制造业第一,吉利也成为首个进入全球算力500强的中国车企,开创了中国汽车智能研发领域的新里程碑。2、吉利星睿智算中心智能仿真平台吉利星睿智算中心智能仿真平台(以下简称“智能仿真平台"),是全球领先的汽车智能化研发仿真平台,与年初发布的吉利星睿智算中心智能数据平台(以下简称“智能数据平台”)共同构成吉利星睿智算中心的两大核心算力平台。不同于聚焦智能网联、智能驾驶、新能源安全等业务领域的智能数据平台,智能仿真平台是面向工业研发领域的科学计算枢纽,以先进工程仿真技术推动汽车智能化研发,覆盖安全、结构、流体、多体、声学、光学、电磁、功能及多学科协同仿真等全域全场景智能仿真技术布局。作为国内汽车行业超大规模的算力集群之一,智能仿真平台实测双精度浮点算力达3.54PFlOPS(每秒3.54千万亿次),行业领先的算力不仅提升研发仿真计算效率30%,同时增加了产品在数字世界中的虚拟验证频次,高效打造能快速应对市场变化和抗击竞争的产品。图2()吉利星睿智算中心3、仿真平台构建智能研发新生态全球领先的汽车智能化研发仿真平台构建智能研发新生态。专注于工业仿真及精度提升、工业软件开发、仿真智能优化等核心领域,探索“A1+仿真+算力”-体化融合技术开发与应用,依托吉利首创虚拟开发&物理验证双循环体系,构建全新研发模式。全域全场景智能仿真技术布局。安全碰撞、结构耐久、流体分析、多体动力学、NVH声学、光学分析、电磁辐射、功能可靠性多学科联合仿真等。四个引领''树立行业标杆。全域安全、智静NVH、可靠耐用、健康车碳减排。“三个领先”打造行业一流性能。精益轻量化、驭风CFD、人车合一驾控感。图21汽车设计仿真超强算力构筑研发创新引擎仿真计算效率提升30%。国内制造业首个采用第四代英特尔至强可扩展处理器并应用落地的超大规模科学计算集群,平台双精度浮点算力达3.54PFk)Ps,-分钟计算能力相当于全球72亿人同时使用计算器不间断计算一年。计算性能指标LinPaCk效率达到87.02%,超过业界平均水平,计算效率较同行业提升30%。行业领先的数据存储能力铸造数智化转型底座。高性能并行文件存储能力达5PB,365天x24小时不间断地为研发产生海量数据,日均数据增量由原来50TB提升至80TB,为推进数智化转型提供强大数字底座。构建自主可控软件研发平台保障数据安全性和可持续积累研发工程师可实时结合业务需求与最新技术发展趋势,完全进行自主软件开发、部署、测试与推广应用,提高国产软件使用。基于顶层设计和应用场景构建的私有云模式,则可有效保障研发数据的安全性与可靠性。4、智能仿真平台进入全球算力500强全球算力500强榜单一直由众多聚焦智算领域的科技企业占领。智能仿真平台以强大的双精度浮点科学计算能力的领先优势,获得全球智算领域权威机构的认证和认可,成功跻身龙头企业云集的全球算力500强。智能仿真平台此次入选,不仅填补了国内汽车企业在全球算力500强榜单的空白,更代表了吉利汽车的智算实力和研发能力已经达至国内领先、国际一流''的水平,中国汽车品牌的智算技术实力已居全球车企前列。智能数据平台与智能仿真平台两大算力底座共同赋能,将进一步加速吉利汽车集团智能新能源转型,实现吉利在智算领域领先行业2-3年的代际优势,真正迎来属于吉利的“智算时代工TOP500The List.CERTIFICATEGeely Wise Star-Dubhe -Lenovo ThinkSystem SD650 V3,Xeon GoldInfiniband HDR6458Q 32C 3.1GHz,Geely Auto Group1Chinais rankedamong the Worid's TOP500 Supercomputersin the 61st TOP500 List published at the ISC23Conference on June 01,2023.Congratulations fromthe TP500 EditorsLJhfersfy of TennesseeZHorst SimonNERSC-Berketey LabMartin Meuer Pnxneteus图22吉利智能仿真平台入全球算力500强榜单给用户带来更好的用车体验,既是“造车者”吉利科技创新的出发点也是落脚点。依托智能仿真平台强大的智能科学计算能力,吉利可以让每一辆车都开展超12000+次全场景虚拟碰撞试验、超72万公里虚拟道路耐久测试,让每一辆车在研发设计环节就历经更严苛的考验,从而为用户带来更安全舒适、更节能环保、更皮实耐用的智能汽车。