跳转至

AI弹性服务

使用ECS弹性服务器

弹性服务器ECS可以为用户提供具有root权限、独立ip的虚拟服务器,满足灵活的AI算力需求,主要用于单机单卡/多卡AI模型调试、训练和部署。

  • hai-ecs,启动虚拟机,约1分钟,启动后通过ssh root@<ip>登录虚拟机,免密登录。
  • squeue查看作业队列情况,获取job_id, 如:30
  • showip <job_id>查看虚拟机ip,如:showip 30
  • scancel <job_id>关闭虚拟机,释放资源,修改自动保存。

登录后,用户将获得虚拟机的root权限,可以自由安装软件、配置环境等。

  • cd 进入用户家目录,用户slurm集群的/aifs共享存储自动挂载到虚拟机中。在家目录下的修改会保存到共享存储,在/root等目录下的修改保存到虚拟机镜像中。
  • nvidia-smi查看GPU情况,hy-smi查看DCU情况。
  • df -h查看磁盘使用情况。
  • htop查看CPU、内存、进程等信息。
  • dnf install htop安装htop

本地VSCode免密直连ECS

免密直连ECS需要将服务器生成的私钥文件保存到本地,然后在VSCode中配置SSH主机。

第1步:下载私钥文件

  • 登录AI集群ailogin后,执行cat ~/.ssh/id_ed25519,将输出的私钥文件内容保存复制粘贴到本地文件id_ed25519中。注意:该文件内容最后需要有一个空行,否则会报格式错误。
  • 将本地文件id_ed25519放到本地~/.ssh目录下。

第2步:配置VSCode

如图所示,在VSCode中安装Remote - SSH插件,然后按照以下步骤操作: alt text

  • 打开远程资源管理器,点击SSH的配置图标⚙️,打开~/.ssh/config文件,添加如下内容:
Host hepai_ailogin
  HostName ailogin.ihep.ac.cn
  User zdzhang
  Port 22
  IdentityFile ~/.ssh/id_ed25519

Host vgpu_in_ailogin
  HostName 10.5.6.131
  User root
  Port 22
  IdentityFile ~/.ssh/id_ed25519
  ProxyJump hepai_ailogin

注:vgpu_in_ailogin下的HostName为ECS的IP地址,需要根据showip <jobid>命令获取,并正确填写。

直连原理:

  • hepai_ailogin是AI集群的登录节点,HostName地址固定,User为集群用户名,Port为端口号,IdentityFile为秘钥文件。
  • vgpu_in_ailogin是ECS启动的虚拟机,HostName地址为ECS的IP地址,User为root,Port为22,IdentityFile为私钥文件,ProxyJump为跳转节点。
  • 本机尝试连接vgpu_in_ailogin时,首先使用AI集群账号和id_ed22519秘钥连接hepai_ailogin,然后再连接vgpu_in_ailogin,实现免密直连。

第3步:连接ECS

  • 远程资源管理器SSH下找到vgpu_in_ailogin,点击连接,连接成功。