kubeflow分布式机器学习examples

最新推荐文章于 2024-08-19 11:04:48 发布

woooorld

最新推荐文章于 2024-08-19 11:04:48 发布

阅读量410

点赞数

分类专栏：分布式机器学习文章标签： tensorflow kubernetes 分布式

本文链接：https://blog.youkuaiyun.com/woooorld/article/details/120570477

版权

本文详细记录了使用kubeflow的tf-operator运行minist分布式例子的过程，包括从下载代码、编写Dockerfile、打包镜像到创建TFJob的yaml文件。在实践中遇到容器因GPU资源申请过频导致显存溢出的问题，解决方案是限制tensorflow代码中GPU的使用。强调了修改代码后必须重新打包镜像的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

介绍

尝试了kubeflow上给的tf-operator的example跑了minist分布式的例子，官方github上写得比较笼统，这里把详细的过程记录一下

URL：https://github.com/kubeflow/tf-operator/tree/master/examples/tensorflow/distribution_strategy/keras-API

流程

代码download到服务器上
编写代码，生成Dockerfile

FROM tensorflow/tensorflow:2.1.0-gpu-py3

RUN pip install tensorflow_datasets==2.1.0

# 前面是容器外的路径，后面是容器内的路径，在容器内的工作目录一定要在这个目录下
COPY multi_worker_strategy-with-keras.py /

# 命令行运行python代码
ENTRYPOINT ["python", "/multi_worker_strategy-with-keras.py", "--saved_model_dir", "/train/saved_model/", "--checkpoint_dir", "/train/checkpoint"]

打包镜像

docker build -f Dockerfile -t kubeflow/multi_worker_strategy:v1.0 .

查看镜像

docker images

创建PV（可选）

apiVersion: v1
kind: PersistentVolume
metadata:
  name: test-pv

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

woooorld

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

华为云原生之KubeEdge深度使用体验与Kubeflow应用开发实践

╰つ栺尖篴夢ゞ

05-12

5538

KubeEdge是一个开源的系统，可将本机容器化应用编排和管理扩展到边缘端设备。它是基于Kubernetes的构建，为网络和应用程序提供核心基础架构支持，并在云端和边缘端部署应用，同步元数据。那么，如何升级和部署KubeEdge？如何配置CloudCore和EdgeCore？如何使用Kubeflow和Volcano实现典型的AI训练任务？带着这些问题，我们一起去一探究竟，玩转KubeEdge！！！

Kubeflow使用Kubernetes进行机器学习GPU分布式训练

sinat_28371057的博客

12-13

4026

Kubeflow使用Kubernetes进行机器学习 Kubeflow是Google推出的基于kubernetes环境下的机器学习组件，通过Kubeflow可以实现对TFJob等资源类型定义，可以像部署应用一样完成在TFJob分布式训练模型的过程。最初的设计是将Kubernetes和Tensorflow结合实现对Tensorflow分布式训练的支持。但是仅仅实现对Tensorflow的支持还是远远不够的，Kubeflow社区又陆续对各种深度学习框架进行支持,例如:MXNet,Caffee,PyTorc..

参与评论您还未登录，请先登录后发表或查看评论

kubeflow 使用demo

最新发布

总要留下点什么吧

08-19

1013

配置注入，podDefault 类似k8s的PodPreset ，可以在将部分配置注入到 pod中。下面的例子是，在kubeflow-user-example-com空间中添加查看权限的用户。执行 kubectl apply -f admin-profile.yaml。用户想要其他人参与自己的开发，可以将其他人添加到自己的命名空间，又两种方式。pytorch-init-container-image，如下。官方示例 python sdk。在notebook中执行代码。crd 版本v2beta1。

Kubeflow Pipelines介绍与实例

Pistachiout的学习博客

08-10

2577

kubeflow/kubeflow 是一个胶水项目，。pipelines 是基于 kubeflow 实现的工作流系统，它的目标是借助 kubeflow 的底层支持，实现出一套工作流，支持数据准备，模型训练，模型部署，可以通过代码提交等等方式触发。

通过 Kubeflow 实例瞄准 Kubernetes 集群的密币挖掘攻击

smellycat000的专栏

06-10

189

探索机器学习新天地：Kubeflow实例教程详解

gitblog_00011的博客

06-09

814

探索机器学习新天地：Kubeflow实例教程详解 intro-to-ml-with-kubeflow-examples[WIP] Examples for the Intro to ML with Kubeflow book项目地址:https://gitcode.com/gh_mirrors/in/intro-to-ml-with-kubeflow-examples 项目介绍在数据科学的浪潮...

Kubeflow实战系列：利用TensorFlow Serving进行模型预测

云栖社区

06-24

1115

云栖君导读：本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用TensorFlow Serving加载训练模型并且进行模型预测。第一篇：阿里云上使...

Kubeflow：在Kubernetes上运行机器学习

qq_38478368的博客

06-12

362

Kubernetes 本来是一个用来管理无状态应用的容器平台，但是在近两年，有越来越多的公司用它来运行各种各样的工作负载，尤其是机器学习炼丹。各种 AI 公司或者互联网公司的 AI 部门都会尝试在 Kubernetes 上运行 TensorFlow、Caffe、MXNet 等等分布式学习的任务，这为 Kubernetes 带来了新的挑战。首先，分布式的机器学习任务一般会涉及参数服务器（以下称为 PS）和工作节点（以下成为 worker）两种不同的工作类型。而且不同领域的学习任务对 PS 和 worker

开源Kubeflow：在Kubernetes上运行机器学习

weixin_34302798的博客

10-07

1665

作者 | 高策来源 | 经授权转载自知乎编辑 | Natalie出处丨AI 前线AI 前线导读：这篇文章主要介绍了 Kubeflow 的使用以及未来的计划，面向人群为对在 Kubernetes 上运行机器学习负载感兴趣的同学。问题背景Kubernetes 本来是一个用来管理无状态应用的容器平台，但是在近两年，有越来越多的公司用它来运行各种各样的工作负载，尤其是机器学习炼丹。各种 AI 公司或者互...

Kubeflow实战系列: 利用TFJob运行分布式TensorFlow

weixin_33807284的博客

06-14

433

介绍本系列将介绍如何在阿里云容器服务上运行Kubeflow, 本文介绍如何使用TfJob运行分布式模型训练。第一篇：阿里云上使用JupyterHub 第二篇：阿里云上小试TFJob 第三篇：利用TFJob运行分布式TensorFlow 第四篇：利用TFJob导出分布式TensorFlow模型第五篇：利用TensorFlow Serving进...

MXNet结合kubeflow进行分布式训练

sinat_28371057的博客

11-21

739

GPU集群配置MXNet+CUDA 为方便控制集群，写了脚本cmd2all.sh #!/bin/bash if [ $# -lt 3 ]; then echo "usage: $0 [type cmds hosts]" echo "for example: ./cmd2all.sh \"cmds\" \"touch t1.txt\" \"gpu1 gpu2\"" echo "for example: ./cmd2all.sh \"path\" \"/home/gbxu/CUDA

Kubeflow 快速入门

weixin_33946605的博客

05-06

530

2019独角兽企业重金招聘Python工程师标准>>> ...

kubeflow 分布式训练离线环境

总要留下点什么吧

08-15

255

离线环境需要修改镜像。

Kubeflow理解性笔记

qq_44564671的博客

05-12

984

概念综述 Kubeflow版本控制政策版本控制和稳定状态 Kubeflow部署到Kubernetes集群，部署包括许多应用程序，其版本独立于Kubeflow的版本控制，应用程序在稳定性、可升级性以及其他方面满足条件时，应用程序迁移至1.0版本；部署Kubeflow时可以部署到Kubernetes集群的应用程序的状态包括stable（与该申请符合标准，达到应用程序版本1.0，社区已认定申请稳定）、beta（应用程序向1.0版本发行，维护者已传达满足稳定状态标准的时间线）、alpha（应用程序处于开发或可

gitblog_00012的博客

05-14

648

torch.distributed 与 Kubeflow分布式训练

weixin_41012399的博客

07-13

747

参考：https://www.zhihu.com/question/359744585/answer/3054739466?utm_id=0如果你不使用 torch.distributed，你仍然可以在 Kubeflow 上运行 PyTorch 工作负载，但是你可能需要自己实现分布式计算的逻辑，或者使用其他的库来实现分布式计算。在单独使用进行分布式训练时，大部分代码和在 Kubeflow 中使用是相同的，只是有些配置不需要手动配置了。

Kubernetes volumes简介

weixin_34294649的博客

04-07

520

2019独角兽企业重金招聘Python工程师标准>>> ...

Yarn已过时！Kubeflow实现机器学习调度平台才是未来

数据派THU

01-30

2998

来源：AI前线本文约6700字，建议阅读10+分钟。本文分析了建设分布式训练平台的过程中的痛点所在，为你介绍Kubeflow与其核心组件及其落地实践过程。[ 导读 ]机器...

[源码解析] 深度学习分布式训练框架 horovod (18) --- kubeflow tf-operator

罗西的思考

07-23

568

[源码解析] 深度学习分布式训练框架 horovod (18) — kubeflow tf-operator 文章目录[源码解析] 深度学习分布式训练框架 horovod (18) --- kubeflow tf-operator0x00 摘要0x01 背景知识1.1 Kubernetes1.2 容器作为调度单元1.3 Kubeflow1.4 Tensorflow on Kubeflow1.5 Operator1.6 TF-Operator0x02 TensorFlow 分布式2.1 Parameter s