AI弹性服务
使用ECS弹性服务器
弹性服务器ECS可以为用户提供具有root权限、独立ip的虚拟服务器,满足灵活的AI算力需求,主要用于单机单卡/多卡AI模型调试、训练和部署。
hai-ecs
,启动虚拟机,约1分钟,启动后通过ssh root@<ip>
登录虚拟机,免密登录。squeue
查看作业队列情况,获取job_id
, 如:30
showip <job_id>
查看虚拟机ip,如:showip 30
scancel <job_id>
关闭虚拟机,释放资源,修改自动保存。
登录后,用户将获得虚拟机的root权限,可以自由安装软件、配置环境等。
cd
进入用户家目录,用户slurm集群的/aifs
共享存储自动挂载到虚拟机中。在家目录下的修改会保存到共享存储,在/root等目录下的修改保存到虚拟机镜像中。nvidia-smi
查看GPU情况,hy-smi
查看DCU情况。df -h
查看磁盘使用情况。htop
查看CPU、内存、进程等信息。dnf install htop
安装htop
。
本地VSCode免密直连ECS
免密直连ECS需要将服务器生成的私钥文件保存到本地,然后在VSCode中配置SSH主机。
第1步:下载私钥文件
- 登录AI集群
ailogin
后,执行cat ~/.ssh/id_ed25519
,将输出的私钥文件内容保存复制粘贴到本地文件id_ed25519
中。注意:该文件内容最后需要有一个空行,否则会报格式错误。 - 将本地文件
id_ed25519
放到本地~/.ssh
目录下。
第2步:配置VSCode
如图所示,在VSCode中安装Remote - SSH
插件,然后按照以下步骤操作:
- 打开
远程资源管理器
,点击SSH
的配置图标⚙️
,打开~/.ssh/config
文件,添加如下内容:
Host hepai_ailogin
HostName ailogin.ihep.ac.cn
User zdzhang
Port 22
IdentityFile ~/.ssh/id_ed25519
Host vgpu_in_ailogin
HostName 10.5.6.131
User root
Port 22
IdentityFile ~/.ssh/id_ed25519
ProxyJump hepai_ailogin
注:vgpu_in_ailogin
下的HostName
为ECS的IP地址,需要根据showip <jobid>
命令获取,并正确填写。
直连原理:
hepai_ailogin
是AI集群的登录节点,HostName
地址固定,User
为集群用户名,Port
为端口号,IdentityFile
为秘钥文件。vgpu_in_ailogin
是ECS启动的虚拟机,HostName
地址为ECS的IP地址,User
为root,Port
为22,IdentityFile
为私钥文件,ProxyJump
为跳转节点。- 本机尝试连接
vgpu_in_ailogin
时,首先使用AI集群账号和id_ed22519秘钥连接hepai_ailogin
,然后再连接vgpu_in_ailogin
,实现免密直连。
第3步:连接ECS
- 在
远程资源管理器
的SSH
下找到vgpu_in_ailogin
,点击连接,连接成功。