跳转至

AI弹性服务

使用ECS弹性服务器

弹性云服务器(Elastic Cloud Server, ECS)为用户提供可直连、可扩展的算力服务器,允许用户动态调整计算资源的配置,包括CPU、内存、GPU卡等,满足灵活的AI算力需求,主要用于单机单卡、单机多卡的AI模型调试、训练和部署。

AI弹性服务的使用模式不同于传统的批处理方式,它允许用户像使用个人服务器一样直接与算力资源进行交互。这种模式提供了一个显著的优势,即支持对AI模型和软件代码的运行时调试,这是传统方法所不具备的。

启动和查看ECS

  • hai-ecs,启动ECS,约5秒钟,启动后通过ssh <username>@<ip> -p <port>登录服务器,需输入集群个人密码登录。
  • 再次hai-ecs或使用hai-ecs status查看ECS状态,包括ipport等信息。
  • hai-ecs stop关闭ECS,释放资源,修改自动保存。
  • hai-ecs -h查看更多参数设置。
  • -g GRES, --gres GRES设置加速卡类型和卡数,例如:-g gpu:1表示1张GPU卡,-g dcu:1表示1张DCU卡。
  • -t TIME, --time TIME设置机器的最大运行时间,默认是120m(分钟),可以使用h表示小时,d表示天。
  • -tp GPU_TYPE, --gpu-type GPU_TYPE设置GPU类型,默认是A800,可选值包括A800L40K100AI

您也可以通过slurm命令直接管理ECS。 + squeue查看作业队列情况,获取job_id, 如:30 + scancel <job_id>关闭虚拟机,释放资源,修改自动保存。

登录使用

通过ssh登录后,您将登录到分配了资源的计算节点服务器中。

  • 用户的家目录与登录节点相同,均为/aifs/user/home/<usrname>
  • nvidia-smi查看GPU情况,hy-smi查看DCU情况。
  • df -h查看磁盘使用情况。
  • htop查看CPU、内存、进程等信息。
  • source ~/.bashrc加载AI集群环境变量,如Conda等。

alt text 注:hai-ecs v2基于slurm调度,启动速度快,但不再提供root权限,用户软件可自行安装在家目录中,如需系统层面的软件、库、依赖库等,请联系helpdesk.ihep.ac.cn

本地VSCode直连ECS

在本地VSCode安装Remote - SSH插件后,可以实现直连ECS。

点击远程资源管理器-SSH-⚙️打开SSH配置文件,编辑~/.ssh/config文件,添加ECS的连接信息。 配置如下:

Host hepai_ecs
  HostName <ECS_IP>
  User <username>
  Port <ECS_PORT>

alt text

配置项说明: - hepai_ecs为自定义远程服务器名,可更改 - HostName为ECS的IP地址,为ai.ihep.ac.cn - User为AI集群用户名 - Port为ECS的端口号,此处不是默认22,需要从hai-ecs命令获取,不同用户端口号不同,每位用户端口号固定。

连接ECS: - 配置完成后,在远程资源管理器SSH下点击刷新,找到hepai_ecs,点击连接,输入密码,连接成功。

注: - ECS为内部服务器,需在内网环境下连接,在外网环境下需提前打开VPN: vpn.ihep.ac.cn