高性能计算集群一期.docx
《高性能计算集群一期.docx》由会员分享,可在线阅读,更多相关《高性能计算集群一期.docx(10页珍藏版)》请在课桌文档上搜索。
1、高性能计算集群(一期)用户使用说明2023年2月1集群基本概况1.1 硬件部分计算节点:64台刀片节点(单节点48核心-志强6336Y2.4GHz),1台GPU节点(单节点48核心-志强6336Y2.4GHz,4张NV-AloO-40G)和1台胖节点:(单节点48核心-志强6336Y2.4GHz,2048GB内存)集群存储:6台OceanStorPacific9550机箱(5U,14TB*120*3.5z2*64C2.6GHz,4*480GBSSDz8*25GEz512GB内存,DPE80000)。(管理网络10.168.201.X、BMC网段10.168.202.X、高速网络12.12.13
2、.X)集群网络:1IOOGbpsInfiniband高速网络(12.12.12.X网段);1套千兆管理网络(10.168.X.X网段)。登陆节点:1台登陆节点,提供用户登陆、编译软件,提交作业,上传下载数据等功能。管理节点:1台管理节点,安装集群管理软件GridView,包括SIUrm作业管理系统,并提供集群监控功能。1.2 软件部分名称版本操作系统Centos7.6-1810内核3.10.7.x86_64作业管理系统Gridview5.1.0.79221gcc4.8.5java1.8.0_181可用的队列有:序号队列名包含节点单节点CPU核数单节点内存单本地硬盘空间S队列总核数1normal
3、nodel至node6048384GB480GBSSD6028802excludednode61至node6448384GB480GBSSD41923gpunodel8148256GB960GBSSD1484fatnodel84482048GB960GBSSD148说明:可能有序有调整,请以集群系统上的队列信息为准2基本使用2.1 平台登录通过院内网络,使用SSH登陆到集群的登陆节点,SSH登录端口为默认的22端口,IP地址为:Loginl10.168.203.190WindoW可用的SSh软件有:SeCUreShelIClien3Xmanager,putty,git-bash等。Mac和Li
4、nux,系统默认安装OPenSSh,可直接使用ssh命令。2.2 数据传输网络传输:通过院内网络,使用登录集群的账号密码,通过SCP或rsync来传输数据。移动硬盘传输:如果数据较大(大于300GB),或者网络传输速度很慢,请联系管理员使用移动硬盘传输。2.3 软件安装系统软件:操作系统默认是完全安装,已安装rpm包3530个。包如有未安装的rpm包,请提醒管理员来安装。用户软件:用户一般可使用两种形式的软件:下载的可执行文件和从源代码安装的软件。下载可执行软件:必须选择与操作系统(CemC)S7.6-1810x86_64glibc-2.17)相匹配的软件版本。如果软件是开放源代码的,可以从源
5、代码编译安装,不太建议下载可执行文件来运行。源代码编译安装:下载源代码,按照软件说明,编译安装软件到用户自己的目录(普通用户有权限安装到自己目录)。标准的C语言软件,一般会有COnfigure,make,makeinstall三个步骤来编译安装。详细内容参考3.1软件安装部分。软件版本:LinUX系统支持安装软件多个版本,调用时可使用绝对路径或者配置环境变量来分别调用。例如系统中会有多个版本的perl,python,gcc,java和数据分析软件等。集群的账号,默认是使用共享存储系统的,集群中所有节点都会挂载相同的目录。在自己目录下的数据和软件,在不同的计算节点上都是可以访问和执行的。2.4
6、环境设置module环境:集群默认使用module程序管理环境变量。集群安装了一些常用软件、库,通过可使用module命令使用:moduleavailmoduleloadmodulelistmoduleunloadmodulepurge# 查看可用环境变量# XXX加载某环境变量例如:moduleloadcompiler/intel/2021.3.0# 查看己加载环境变量# XXX卸载某环境变量例如:moduleunloadmpi/intelmpi/2021.3.0# 清除所有环境变量普通用户只能通过module命令使用已经安装好的软件。用户环境此外,如果用户自己安装程序,安装完软件后,一般会
7、设置环境变量,比如PATH,LD_LIBRARY_PATH,方便用户的使用。系统的环境变量一般用冒号:”来分割多个路径,系统会按照从左到右的方式搜索环境变量。其中:LD_IJBRARY_PATH中包含了动态库的查找路径;PATH中包含了使用命令的搜索路径,比如PATH=/usr/local/bin:/bin:/usr/bin:/usr/local/sbin:$PATH,会从左往右的搜索。假设有多个版本的执行命令,需要把希望使用的软件目录设置在PATH变量的最左边。保存和生效环境变量的永久生效,需要把module命令或用户环境变量保存到特定的文件。普通用户保存环境变量的文件主要是:.bashrc
8、,/.bash_profile,文件中需要用export命令来添加,例如:exportPATH=/home/root/sbin:/home/software/bin:$PATH如果修改了上述文件后,可使用SoUrCe命令来在当前终端生效:source.bashrc0临时生效的环境变量,可在当前终端直接使用export命令来生效。关闭某个环境变量,可使用UnSet命令,例如:unsetPYTHONPATHecho命令可用于查看当前环境变量,例如:echo$PATH($用于引用当前变量的变量值)2.5 作业提交集群使用SIUrm作业管理系统为用户作业分配计算资源,将用户的作业提交到计算节点,执行作
9、业中的命令。作业的提交有脚本提交和交互式提交。建议用户以作业脚本的方式提交作业,如果有临时作业需求,也可以通过交互式提交作业。常用的SlUrm命令有:命令说明sbatch像SLURM调度系统提交作业脚本srun可用来请求一个交互式作.业的资源,或启动MPI软件的多个(MPI)进程scancel取消正在运行或排队的作业squeue查看当前用户提交的作业状态(包括排队,运行,正在退出等状态的任务)sinfo查看当前集群中用户可用节点的总体状态Scontrol查看SlUrm集群的作业、节点、队列等的详细信息sacct查看当前和历史作业的信息,(查询Slurm历史数据库信息)2.5.1 准备脚本首先,
10、用户需要确定作业所需的计算资源(CPU核数、内存大小),查看系统当前可用资源情况(可用命令SinfO,sinfo-s),选定作业提交的队列、节点,准备作业要执行的程序或脚本,设置输出STDoUT、STDERR和结果数据,编辑作业脚本,例如:usernamelogin01$cat sbatch-#!/bin/bash#SBATCH -J bwatest# SBATCH -N 1# SBATCH -p normal#SBATCH -exclusive# SBATCH -n 12# SBATCH -mem 30g# SBATCH -o %x_%j.out# SBATCH -e %x_%j.errmo
11、dule purgemodule load compiler/intel/2017.5.239genomefile=somepathtognomefile inputl=/some/path/to/input_Rl. input2=/some/path/to/input_R2.# #SlUrm脚本需要的脚本解析程序(必须*)# #作业的名称:bwatest# #作业申请节点数为:1个计算节点# #作业申请的队列是:normal(必须*)# #作业使用的计算节点为独占,排除其他作业影响# #作业申请的并行作业task数为:12(必须*)# #作业申请节点的内存限制为:30GB# #作业stdou
12、t输出文件为:作业名_作业id.out# #作业Stderr输出文件为:作业名_作业id.er# #清空module环境# #请根据程序需要,加载所需要的module环境# #根据作业脚本需求,设置脚本参数和命令bwamem-M-t12$genomefile$inputl$input2Username(S)IoginOl$sbatch的常用参数及说明:参数说明-job-name或-J作业的名称-partition或-P作业申请的队列名称-nodes或-N作业申请的计算节点个数-ntasks或-n作业总的task数量(可以理解为mpi的总进程数)-mem作业每个计算节点申请的内存数量,单位可以是
13、M、G等-gres作业申请资源,可用于申请gpu,例如-gres=gpu:8申请单节点8个gpu卡-time=HH:MM:SS或限制作业的运行时间,默认为分钟,超过限制时间,SlUrm会杀掉作业-exclusive作业申请的节点属性为独占,Slurm不在分配其他作业到同一个计算节点-output=path2dirfilename或-o作业的标准输出StdOUt的输出文件-error=path2dirfilename或-e作业的标准错误stderr的输出文件-nodelist=或w设置作业在nodelist描述的节点上运行-exclude=或-X设置作业不在nodelist描述的节点上运行使用S
14、info查看集群队列信息和节点状态:SinfoOPTIONS.查看队列空闲节点的信息,可使用SinfO-s,该命令输出中的NoDES(A/I/0/T),节点状态信息:节点状态缩写节点状态说明Aallocated节点CPU核心全部被分配,没有空闲可用的核心Iidle节点空闲,没有分配任何作业0other节点下线、或者故障等状态,无法提供计算服务Ttotal某个队列节点的总个数更详细的使用请参考manSinfo帮助文档,或者2.5.2提交作业提交作业脚本:sbatchjobscript说明:I)SbatCh的命令行参数,是可以以#SBATCH作为开头的参数,在作业脚本中设置的,例如SbatCh_中
15、的#SBATCHN1和#SBATCH-n48参数,与SbatCh-N1n48sbatch是一样的,需要注意的是:如果命令行的参数和脚本中的#SBATCH参数有冲突,命令行的参数会覆盖掉作业脚本中的参数。2)建议用户将参数写到作业脚本中,方便后续查看的使用。3)若使用独占参数-elusive,在作业计费时是按照节点的全部CPU核心和GPU卡来计费的,请用户知悉。4)详细的参数和使用文档,请参考mansbatch或者。2.5.3交互式作业Slurm作业调度系统可试用SrUn来提交交互式作业:SrUn-P队列名称-N节点数量-n任务数量-gres=gpu:1-ptybash-i执行后,待分配好计算节
16、点后,可以使用hostname查看已经登录到计算节点,用户可执行所需的计算命令。待执行完,可用exit退出计算节点,即可退出交互式作业。2.5.4查看作业用户可以使用squeue命令查看已经提交的作业信息:squeueoptionssqueue常用的参数有:参数说明-jobs=jobid或-jjobid查看作业id为jobid的作业信息(或者以逗号分割的id列表)-name=K-n查看作业名称为JobName的作业信息-states=-t查看作业状态为某类的作业信息,可使用缩写PD、R、CG等-partition=ptname或-Pptname查看队列名称为ptname队列上的作业信息-sor
17、t=或-S以sort_list排序来查看作业信息,比如以作业jobid排序-SiSqUeUe作业的输出自选是可以自定义的,可以使用-。(字段缩写)或者-。(字段)参数,常用的有:-。参数-0参数说明%ijobid作业的jobid或者jobstepid%Ppartition作业使用的队列名称%jname作业的名称%uusername作业所属的用户名称%Tstate作业的状态信息%Mtimeused作业己经运行的时间%1timelimit作业的时间限制%Dnumnodes作业申请使用的节点个数%Cnumcpus作业申请使用的CPU核心总数%mminmemory作业申请的min-memory内存大小
18、%Rnodelist排队作业的排队原因,或者运行作业的节点列表如果不希望每次squeue都使用或者0的参数来指定输出,可以使用环境变量SQUEUE.FORMAT(对应o参数)或者SQUEUE_FORMAT2(对应0参数),例如:exportSQUEUE_FORMAT=%.10i%.15P%.IOj%.20u%.8T%.10M%.12l%.5D%.5C%.3H%.3l%.7m%R#exportSQUEUE_FORMAT2=jobid:12,USemame:18,name:10,PartitiOn:.10,timeused:.12,numnodes:.7,numcpus:.7,nodelist:.
19、25常见的作业状态有:状态缩写状态信息说明CACANCELLED状态为取消,被用户或者管理员取消CDCOMPLETED状态为完成,退出码为0CFCONFIGURING状态为配置,作业已经被分配了计算资源,等待资源可以被使用CGCOMPLETING状态为正在完成,长时间的CG状态,可能是计算节点存储卡顿NFNODE_FAIL状态为失败,由于某个或某些计算节点故障导致PDPENDING状态为排队,如果reason是priority,是由于前面还有排队作业;如果reason是resource,表明资源不足,资源满足申请时会立即运行RRUNNING状态为运行,作业正在运行中说明:1)为了保护用户的作业
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 性能 计算 集群 一期
链接地址:https://www.desk33.com/p-373324.html