安装要求
OpenPAI的部署要求至少有3台独立的机器:一台dev box机器、一台master机器和一台worker机器。
dev box机器在安装、维护和卸载期间,通过SSH控制master机器和worker机器,应该指定唯一一台dev box机器。master机器用于运行核心Kubernetes组件和核心OpenPAI服务,目前,只能指定唯一一台master机器。建议您使用纯CPU机器作为dev box机器和master机器。另外,所有的worker机器都应该有GPU,并正确安装GPU驱动程序。
- dev box机器
- 硬件要求
- 它可以与所有其他机器(master和worker机器)通信。
- 它是除了master机器和worker机器外的一台独立计算机。
- 软件要求
- Ubuntu 16.04 (18.04应该可用,但没有经过完整测试)
- SSH服务已开启。
- 可以免密登录所有master和worker机器。
- Docker已被正确安装。您可以用命令
docker --version
来检查。如果您的Docker未被正确安装,可以参考Docker的安装指南。
- 硬件要求
- master机器
- 硬件要求
- 至少40GB内存。
- 必须有固定的IP地址,且可以和其他所有机器通信。
- 可以访问Internet。尤其是可以访问Docker Hub。部署过程会从Docker Hub拉取Docker镜像。
- 软件要求
- Ubuntu 16.04 (18.04应该可用,但没有经过完整测试)
- SSH服务已开启,和所有Worker机器有同样的SSH用户名和密码,且该SSH用户有sudo权限。
- NTP已被成功开启。 您可以用命令
apt install ntp
来检查。
- 其他要求
- 它是OpenPAI的专用服务器。OpenPAI管理它的所有CPU、内存和GPU资源。如果有其他工作负载,则可能由于资源不足而导致未知问题。
- 硬件要求
- worker机器:
- 硬件要求
- 至少16GB内存
- 必须有至少一块GPU。
- 必须有固定的IP地址,且可以和其他所有机器通信。
- 可以访问Internet。尤其是可以访问Docker Hub。部署过程会从Docker Hub拉取Docker镜像。
- 软件要求
- Ubuntu 16.04 (18.04应该可用,但没有经过完整测试)
- SSH服务已开启,所有master和worker机器有同样的SSH用户名和密码,且该SSH用户有sudo权限。
- Docker已被正确安装。您可以用命令
docker --version
来检查。如果您的Docker未被正确安装,可以参考Docker的安装指南。 - GPU驱动已被正确安装。 您可以用这个命令来检查。 如果您的GPU驱动未被正确安装,可以参考如何安装GPU驱动。 如果您对安装哪个版本的GPU驱动有疑问,可以阅读这个文档。
- nvidia-container-runtime或其他device runtime已被正确安装,并且被设置为Docker的默认runtime。请在docker-config-file里进行设置。
- 您可以用命令
sudo docker run nvidia/cuda:10.0-base nvidia-smi
来检查这一项。如果该命令成功打出当前可用的显卡个数,就说明设置是没问题的。 - 如果它未被正确安装,请参考如何安装nvidia container runtime。
- 您可以用命令
- 硬件要求
dev box机器
1. SSH免密登录配置
1.在本地机器上使用ssh-keygen产生公钥私钥
ssh