跳转至

交互式资源

进行AI算法开发、调试时,建议使用交互式资源,可以更方便的进行代码调试、查看运行结果等。

使用salloc命令来分配资源,分配资源后进入计算节点,主要是为了进行交互式的作业测试或调试。你可以在一个交互式会话中运行你的程序。

DCU交互式资源

salloc --partition=dcu \
       --account=ihepai \
       --qos=dcunormal \
       --mem-per-cpu=4GB \
       --ntasks-per-node=1 \
       --nodes=1 \
       --gres=dcu:1 \
       --job-name=inter_test
  • 参数设置:

    • --partition=dcu:可选gpudcu,根据选择GPU或DCU资源选择
    • --account=ihepai:账户名,无需修改
    • --qos=dcunormal:可选gpunormaldcunormal,根据选择GPU或DCU资源选择
    • --nodes=1:请求分配的计算节点数量。
    • --gres=dcu:1:请求每个计算分配的DCU数量,选用DCU时,应设置为--gres=dcu:1
    • --mem-per-cpu=4GB:为每个CPU分配的内存,需要根据作业的内存需求进行设置。
    • --ntasks-per-node :指定每个节点运行的任务数(即 MPI 任务数)。
    • --job-name:作业名称,squeue查看作业队列时会显示。
  • 运行成后进入DCU计算节点,可以使用hy-smi查看DCU情况,htop查看CPU、内存、进程等信息。

计算节点加载环境

在交互式资源中,计算节点不会自动加载环境,需要手动加载环境,例如加载Anaconda3环境:

  • module use /cvmfs/slurm.ihep.ac.cn/alma9/modulefiles,加载模块路径
  • module avail,查看可用模块
  • module load anaconda/24.3.0,加载 Anaconda3
  • conda env list,查看已有环境

详见Slurm的Module