交互式资源
进行AI算法开发、调试时,建议使用交互式资源,可以更方便的进行代码调试、查看运行结果等。
使用salloc
命令来分配资源,分配资源后进入计算节点,主要是为了进行交互式的作业测试或调试。你可以在一个交互式会话中运行你的程序。
DCU交互式资源
salloc --partition=dcu \
--account=ihepai \
--qos=dcunormal \
--mem-per-cpu=4GB \
--ntasks-per-node=1 \
--nodes=1 \
--gres=dcu:1 \
--job-name=inter_test
-
参数设置:
--partition=dcu
:可选gpu
和dcu
,根据选择GPU或DCU资源选择--account=ihepai
:账户名,无需修改--qos=dcunormal
:可选gpunormal
和dcunormal
,根据选择GPU或DCU资源选择--nodes=1
:请求分配的计算节点数量。--gres=dcu:1
:请求每个计算分配的DCU数量,选用DCU时,应设置为--gres=dcu:1
--mem-per-cpu=4GB
:为每个CPU分配的内存,需要根据作业的内存需求进行设置。--ntasks-per-node
:指定每个节点运行的任务数(即 MPI 任务数)。--job-name
:作业名称,squeue
查看作业队列时会显示。
-
运行成后进入DCU计算节点,可以使用
hy-smi
查看DCU情况,htop
查看CPU、内存、进程等信息。
计算节点加载环境
在交互式资源中,计算节点不会自动加载环境,需要手动加载环境,例如加载Anaconda3环境:
module use /cvmfs/slurm.ihep.ac.cn/alma9/modulefiles
,加载模块路径module avail
,查看可用模块module load anaconda/24.3.0
,加载 Anaconda3conda env list
,查看已有环境
详见Slurm的Module。