OpenPAI1.3.0 部署

安装要求

OpenPAI的部署要求至少有3台独立的机器:一台dev box机器、一台master机器和一台worker机器。

dev box机器在安装、维护和卸载期间,通过SSH控制master机器和worker机器,应该指定唯一一台dev box机器。master机器用于运行核心Kubernetes组件和核心OpenPAI服务,目前,只能指定唯一一台master机器。建议您使用纯CPU机器作为dev box机器和master机器。另外,所有的worker机器都应该有GPU,并正确安装GPU驱动程序。

  • dev box机器
    • 硬件要求
      • 它可以与所有其他机器(master和worker机器)通信。
      • 它是除了master机器和worker机器外的一台独立计算机。
    • 软件要求
      • Ubuntu 16.04 (18.04应该可用,但没有经过完整测试)
      • SSH服务已开启。
      • 可以免密登录所有master和worker机器。
      • Docker已被正确安装。您可以用命令docker --version来检查。如果您的Docker未被正确安装,可以参考Docker的安装指南
  • master机器
    • 硬件要求
      • 至少40GB内存。
      • 必须有固定的IP地址,且可以和其他所有机器通信。
      • 可以访问Internet。尤其是可以访问Docker Hub。部署过程会从Docker Hub拉取Docker镜像。
    • 软件要求
      • Ubuntu 16.04 (18.04应该可用,但没有经过完整测试)
      • SSH服务已开启,和所有Worker机器有同样的SSH用户名和密码,且该SSH用户有sudo权限。
      • NTP已被成功开启。 您可以用命令apt install ntp来检查。
    • 其他要求
      • 它是OpenPAI的专用服务器。OpenPAI管理它的所有CPU、内存和GPU资源。如果有其他工作负载,则可能由于资源不足而导致未知问题。
  • worker机器:
    • 硬件要求
      • 至少16GB内存
      • 必须有至少一块GPU。
      • 必须有固定的IP地址,且可以和其他所有机器通信。
      • 可以访问Internet。尤其是可以访问Docker Hub。部署过程会从Docker Hub拉取Docker镜像。
    • 软件要求
      • Ubuntu 16.04 (18.04应该可用,但没有经过完整测试)
      • SSH服务已开启,所有master和worker机器有同样的SSH用户名和密码,且该SSH用户有sudo权限。
      • Docker已被正确安装。您可以用命令docker --version来检查。如果您的Docker未被正确安装,可以参考Docker的安装指南
      • GPU驱动已被正确安装。 您可以用这个命令来检查。 如果您的GPU驱动未被正确安装,可以参考如何安装GPU驱动。 如果您对安装哪个版本的GPU驱动有疑问,可以阅读这个文档
      • nvidia-container-runtime或其他device runtime已被正确安装,并且被设置为Docker的默认runtime。请在docker-config-file里进行设置。
        • 您可以用命令sudo docker run nvidia/cuda:10.0-base nvidia-smi来检查这一项。如果该命令成功打出当前可用的显卡个数,就说明设置是没问题的。
        • 如果它未被正确安装,请参考如何安装nvidia container runtime

dev box机器

1. SSH免密登录配置

1.在本地机器上使用ssh-keygen产生公钥私钥

ssh
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值