AI弹性服务
使用ECS弹性服务器
弹性云服务器(Elastic Cloud Server, ECS)为用户提供可直连、可扩展的算力服务器,允许用户动态调整计算资源的配置,包括CPU、内存、GPU卡等,满足灵活的AI算力需求,主要用于单机单卡、单机多卡的AI模型调试、训练和部署。
AI弹性服务的使用模式不同于传统的批处理方式,它允许用户像使用个人服务器一样直接与算力资源进行交互。这种模式提供了一个显著的优势,即支持对AI模型和软件代码的运行时调试,这是传统方法所不具备的。
启动和查看ECS
hai-ecs,启动ECS,约5秒钟,启动后通过ssh <username>@<ip> -p <port>登录服务器,需输入集群个人密码登录。- 再次
hai-ecs或使用hai-ecs status查看ECS状态,包括ip、port等信息。 hai-ecs stop关闭ECS,释放资源,修改自动保存。hai-ecs -h查看更多参数设置。-g GRES, --gres GRES设置加速卡类型和卡数,例如:-g gpu:1表示1张GPU卡,-g dcu:1表示1张DCU卡。-t TIME, --time TIME设置机器的最大运行时间,默认是120m(分钟),可以使用h表示小时,d表示天。-tp GPU_TYPE, --gpu-type GPU_TYPE设置GPU类型,默认是A800,可选值包括A800、L40、K100AI。
您也可以通过slurm命令直接管理ECS。
+ squeue查看作业队列情况,获取job_id, 如:30
+ scancel <job_id>关闭虚拟机,释放资源,修改自动保存。
登录使用
通过ssh登录后,您将登录到分配了资源的计算节点服务器中。
- 用户的家目录与登录节点相同,均为
/aifs/user/home/<usrname>, nvidia-smi查看GPU情况,hy-smi查看DCU情况。df -h查看磁盘使用情况。htop查看CPU、内存、进程等信息。source ~/.bashrc加载AI集群环境变量,如Conda等。
注:hai-ecs v2基于slurm调度,启动速度快,但不再提供root权限,用户软件可自行安装在家目录中,如需系统层面的软件、库、依赖库等,请联系helpdesk.ihep.ac.cn。
本地VSCode直连ECS
在本地VSCode安装Remote - SSH插件后,可以实现直连ECS。
点击远程资源管理器-SSH-⚙️打开SSH配置文件,编辑~/.ssh/config文件,添加ECS的连接信息。
配置如下:
Host hepai_ecs
HostName <ECS_IP>
User <username>
Port <ECS_PORT>

配置项说明:
- hepai_ecs为自定义远程服务器名,可更改
- HostName为ECS的IP地址,为ai.ihep.ac.cn
- User为AI集群用户名
- Port为ECS的端口号,此处不是默认22,需要从hai-ecs命令获取,不同用户端口号不同,每位用户端口号固定。
连接ECS:
- 配置完成后,在远程资源管理器的SSH下点击刷新,找到hepai_ecs,点击连接,输入密码,连接成功。
注:
- ECS为内部服务器,需在内网环境下连接,在外网环境下需提前打开VPN: vpn.ihep.ac.cn。