AI弹性服务
使用ECS弹性服务器
弹性云服务器(Elastic Cloud Server, ECS)为用户提供可直连、可扩展的算力服务器,允许用户动态调整计算资源的配置,包括CPU、内存、GPU卡等,满足灵活的AI算力需求,主要用于单机单卡、单机多卡的AI模型调试、训练和部署。
AI弹性服务的使用模式不同于传统的批处理方式,它允许用户像使用个人服务器一样直接与算力资源进行交互。这种模式提供了一个显著的优势,即支持对AI模型和软件代码的运行时调试,这是传统方法所不具备的。
启动和查看ECS
hai-ecs
,启动ECS,约5秒钟,启动后通过ssh <username>@<ip> -p <port>
登录服务器,需输入集群个人密码登录。- 再次
hai-ecs
或使用hai-ecs status
查看ECS状态,包括ip
、port
等信息。 hai-ecs stop
关闭ECS,释放资源,修改自动保存。hai-ecs -h
查看更多参数设置。-g GRES, --gres GRES
设置加速卡类型和卡数,例如:-g gpu:1
表示1张GPU卡,-g dcu:1
表示1张DCU卡。-t TIME, --time TIME
设置机器的最大运行时间,默认是120m
(分钟),可以使用h
表示小时,d
表示天。-tp GPU_TYPE, --gpu-type GPU_TYPE
设置GPU类型,默认是A800
,可选值包括A800
、L40
、K100AI
。
您也可以通过slurm
命令直接管理ECS。
+ squeue
查看作业队列情况,获取job_id
, 如:30
+ scancel <job_id>
关闭虚拟机,释放资源,修改自动保存。
登录使用
通过ssh
登录后,您将登录到分配了资源的计算节点服务器中。
- 用户的家目录与登录节点相同,均为
/aifs/user/home/<usrname>
, nvidia-smi
查看GPU情况,hy-smi
查看DCU情况。df -h
查看磁盘使用情况。htop
查看CPU、内存、进程等信息。source ~/.bashrc
加载AI集群环境变量,如Conda等。
注:
hai-ecs v2
基于slurm调度,启动速度快,但不再提供root权限,用户软件可自行安装在家目录中,如需系统层面的软件、库、依赖库等,请联系helpdesk.ihep.ac.cn
。
本地VSCode直连ECS
在本地VSCode安装Remote - SSH
插件后,可以实现直连ECS。
点击远程资源管理器
-SSH
-⚙️打开SSH配置文件
,编辑~/.ssh/config
文件,添加ECS的连接信息。
配置如下:
Host hepai_ecs
HostName <ECS_IP>
User <username>
Port <ECS_PORT>
配置项说明:
- hepai_ecs
为自定义远程服务器名,可更改
- HostName
为ECS的IP地址,为ai.ihep.ac.cn
- User
为AI集群用户名
- Port
为ECS的端口号,此处不是默认22
,需要从hai-ecs
命令获取,不同用户端口号不同,每位用户端口号固定。
连接ECS:
- 配置完成后,在远程资源管理器
的SSH
下点击刷新,找到hepai_ecs
,点击连接,输入密码,连接成功。
注:
- ECS为内部服务器,需在内网环境下连接,在外网环境下需提前打开VPN: vpn.ihep.ac.cn
。