深入探索Kubeflow:从基础操作到安全规划与用户管理
1. 基础操作与实验管理
在操作环境中,我们可以观察到一些基本的张量操作在特定设备上运行。在笔记本的底部单元格中,能看到这些操作在 /job:localhost/replica:0/task:0/device:GPU:0 上执行,这表明代码正在本地GPU上实际运行。
在多笔记本和GPU使用方面,在NVIDIA A100和MIG技术出现之前,如果多个笔记本尝试访问笔记本服务器上的单个GPU,很可能会出现笔记本锁定或崩溃的情况。因此,如果在使用Kubeflow时没有使用A100和MIG,建议在单个GPU笔记本服务器上一次只激活一个笔记本。
Kubeflow平台包含机器学习元数据服务,可跟踪系统上运行的作业和实验的多个方面。下面介绍一些使用该服务SDK的基本概念和术语:
- 工作区(Workspace) :对一组管道、笔记本及其相关工件和执行进行分组。
- 运行(Run) :捕获工作区中的管道或笔记本,并对执行进行分组。
- 执行(Execution) :捕获工作区中管道或笔记本的运行,并对执行进行分组。
这些关键概念的层次关系如下:
graph LR
A[Workspace] --> B[Run]
A --> C[Execution]
还有一个概念是存储(store),它是用于连接元数据g
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



