基于 Kubernetes 的机器学习实践指南
1. 机器学习工作流阶段
机器学习工作流主要包含以下几个阶段:
- 数据集准备 :此阶段涵盖用于训练模型的数据集的存储、索引、编目和元数据处理。为满足不同大小数据集(从数百兆字节到数百太字节甚至拍字节)的需求,通常需要大规模的块存储和对象存储,并且这些存储应可通过 Kubernetes 原生存储抽象或直接访问的 API 来获取。
- 模型开发 :数据科学家在此阶段编写、共享和协作开发机器学习算法。像 JupyterHub 这样的开源工具易于在 Kubernetes 上安装,其功能与其他工作负载类似。
- 训练 :为使模型能够利用数据集学习执行预定任务,必须对其进行训练。训练过程的产物通常是训练后模型状态的检查点。该过程需充分利用 Kubernetes 的各种功能,包括调度、访问专用硬件、数据集卷管理、扩展和网络等。
- 服务 :这是将训练好的模型提供给客户端服务请求的过程,模型可根据客户端提供的数据进行推理。例如,一个经过训练的图像识别模型可以检测狗和猫,当客户端提交一张狗的图片时,模型应能以一定的准确率判断其是否为狗。
2. Kubernetes 集群管理员的考虑事项
在 Kubernetes 集群上运行机器学习工作负载之前,集群管理员需要考虑以下问题:
- 术语理解 :作为负责数据科学团队的集群管理员,最大的挑战是理解机器学习领域的众多新术语。不过,随着时间的推移,你可以逐渐熟悉这些术语。
超级会员免费看
订阅专栏 解锁全文
61

被折叠的 条评论
为什么被折叠?



