kubeflow分布式机器学习examples

本文详细记录了使用kubeflow的tf-operator运行minist分布式例子的过程,包括从下载代码、编写Dockerfile、打包镜像到创建TFJob的yaml文件。在实践中遇到容器因GPU资源申请过频导致显存溢出的问题,解决方案是限制tensorflow代码中GPU的使用。强调了修改代码后必须重新打包镜像的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

介绍

尝试了kubeflow上给的tf-operator的example跑了minist分布式的例子,官方github上写得比较笼统,这里把详细的过程记录一下

URL:https://github.com/kubeflow/tf-operator/tree/master/examples/tensorflow/distribution_strategy/keras-API

流程

  1. 代码download到服务器上

  2. 编写代码,生成Dockerfile

FROM tensorflow/tensorflow:2.1.0-gpu-py3

RUN pip install tensorflow_datasets==2.1.0

# 前面是容器外的路径,后面是容器内的路径,在容器内的工作目录一定要在这个目录下
COPY multi_worker_strategy-with-keras.py /

# 命令行运行python代码
ENTRYPOINT ["python", "/multi_worker_strategy-with-keras.py", "--saved_model_dir", "/train/saved_model/", "--checkpoint_dir", "/train/checkpoint"]
  1. 打包镜像
docker build -f Dockerfile -t kubeflow/multi_worker_strategy:v1.0 .
  1. 查看镜像
docker images
  1. 创建PV(可选)
apiVersion: v1
kind: PersistentVolume
metadata:
  name: test-pv  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值