背景信息
当多个开发人员在一个公司或大团体下使用Arena进行工作时,为了有效管理,您可能需要对这些人员进行小组划分,且每个小组需要彼此隔离。这样在同一个集群内,小组就是您分配、隔离资源和权限的基本单元。
通常您需要将整个集群的资源(GPU、CPU、MEM)根据具体需求划分给每个组,并且给组内成员分配不同权限,以及提供各自独立的Arena使用环境。其中权限包括:用户对于作业的可见、可操作权限,用户的作业对特定数据的读写权限。
图 1. 配置多用户使用Arena的工作环境图
本文示例中的ACK集群和Client机器的节点信息如下表所示。
主机名 |
角色 |
IP地址 |
GPU卡数 |
CPU核数 |
MEM |
client01 |
Client |
10.0.0.97(私有)39.98.xxx.xxx(公) |
0 |
2 |
8 GiB |
master01 |
Master |
10.0.0.91(私有) |
0 |
4 |
8 GiB |
master02 |
Master |
10.0.0.92(私有) |
0 |
4 |
8 GiB |
master03 |
Master |
10.0.0.93(私有) |
0 |
4 |
8 GiB |
worker01 |
Worker |
10.0.0.94(私有) |
1 |
4 |
30 GiB |
worker02 |
Worker |
10.0.0.95(私有) |
1 |
4 |
30 GiB |
worker03 |
Worker |
10.0.0.96(私有) |
1 |
4 |
30 GiB |
说明
如无特殊说明,本文操作均为集群管理员(admin)操作,操作节点为Client机器。
目标任务
本文最佳实践的示例中将达成以下五个目标任务:
-
目标一:您需要为当前ACK集群创建两个分组dev1和dev2,并且为这两个分组各添加一个用户bob和tom。
-
目标二:每个用户只能通过自己的账号和密码登录到Client机器,使用自己环境下的Arena。
-
目标三:bob和tom只对自己提交的作业可见,以及进行管理。
-
目标四:按组划分Worker节点GPU、CPU、MEM资源(注:仅Worker节点的计算资源才能被Arena作业使用)。
-
目标五:创建组内共享的数据卷,和组与组之间全局共享的数据卷。
表 1. 数据配置表
组名 |
用户 |
GPU |
CPU |
MEM |
共享数据卷 |
dev1 |
bob |
1 |