2.5-Tensorflow2-基础教程-分布式训练

最新推荐文章于 2025-05-12 11:22:44 发布

原创

最新推荐文章于 2025-05-12 11:22:44 发布 · 847 阅读

1 ·

CC 4.0 BY-SA版权

本文介绍如何使用tf.distribute.Strategy API进行Keras模型的分布式训练，包括多GPU配置及多工作器训练设置。通过示例代码展示了如何定义分配策略、配置多工作器环境变量TF_CONFIG，以及调整批量大小和学习率等关键步骤。

文章目录

- 1.Keras 的分布式训练
- 2.多工作器（worker）配置

1.Keras 的分布式训练

概述
tf.distribute.Strategy API 提供了一个抽象的 API ，用于跨多个处理单元（processing units）分布式训练。
它的目的是允许用户使用现有模型和训练代码，只需要很少的修改，就可以启用分布式训练。

#定义分配策略
#创建一个 MirroredStrategy 对象。这将处理分配策略，并提供一个上下文管理器（tf.distribute.MirroredStrategy.scope）来构建你的模型。

strategy = tf.distribute.MirroredStrategy()

INFO:tensorflow:Using MirroredStrategy with devices ('/job:localhost/replica:0/task:0/device:GPU:0',)

INFO:tensorflow:Using MirroredStrategy with devices ('/job:localhost/replica:0/task:0/device:GPU:0',)

print('Number of devices: {}'.format(strategy.num_replicas_in_sync

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

HJZ11

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

tf2分布式训练及SRGNN提高指标的实践

NLP与推荐算法

07-05

398

hi各位大佬好，之前有tf-NCF版本的多GPU训练，但是和MNIST一样，都是全都是keras版本的，而在实际中很少有能直接用keras来实现的，我也希望那些开源的大佬把代码全部换成keras，ra

国产大模型图文搜索系统实战：Qwen2.5-Omni 多模态向量系统全流程部署指南

努力分享一些人工智能、计算机视觉、影像等相关的知识干货！

03-31

1712

构建一个图文混合输入的多模态检索系统，关键在于三个环节：向量提取、向量索引、结果召回与展示。本文基于当前可复现的 Qwen2.5-Omni 开源模型，结合 HuggingFace Transformers 的最新 API 与 FAISS/Milvus 检索引擎，完整搭建了图文向量检索系统，覆盖模型调用、向量融合、API封装、系统部署等流程，并对实际部署中的模型兼容性、资源消耗、索引可扩展性等问题给出工程化解决方案。适合图文问答系统、文档管理平台与图像搜索应用快速落地参考。

参与评论您还未登录，请先登录后发表或查看评论

TensorFlow（二）之分布式

chenglong_123的博客

01-15

983

本博文参考TensorFlow技术解析与实战（李嘉璇），仅用于学习。一、原理 分布式TensorFlow是由高性能的gRPC库作为底层技术来支持的。gRPC是Google开源的RPC框架（远程过程调用协议），相当于提供一个接口，用户将参数从本地传递到远程服务器，在服务器上实现计算，客户端最后获得传回的结果。 TensorFlow部署分为单机多卡（左）和多机多卡（分布式，右）。单机多卡就是一

TensorFlow多机分布式训练

先云的博客

04-01

1183

TF分布式训练导读：记录如何使用tensorflow进行分布式训练，主要参考文档：https://tensorflow.google.cn/tutorials/distribute/multi_worker_with_keras?hl=en 环境： Hadoop 3.2.1 Tensorflow 2.1.0 python 3.7.6 使用的是CPU进行分布式训练准备各软件安装完成后...

TensorFlow运作方式入门

susandebug

07-19

799

使用 TensorFlow 2.0 进行分布式训练

一个幽灵

05-12

8115

概览 tf.distribute.Strategy 是一个用于分布式训练的TensorFlow API ，横跨多GPU、多机器或TPU. 通过这个API，经过少量改造，就可以让现存的模型和训练代码支持分布式训练。 tf.distribute.Strategy 的设计目标是: 容易使用，支持多种用户，包括研究员、机器学习工程师等等提供良好的性能、开箱即用更容易更换策略 tf.distribute.Strategy 能被用于高级API比如 Keras, 也能用于自定义训练循环 (基于TensorFlow

Qwen2.5-VL模型目标检测（Grounding）任务领域微调教程

最新发布

weixin_44312617的博客

05-12

3200

在目标检测领域，众多神经网络模型早已凭借其卓越的性能，实现了精准的目标检测与目标分割效果。然而，随着多模态模型的崛起，其在图像分析方面展现出的非凡能力，为该领域带来了新的机遇。多模态模型不仅能够深入理解图像内容，还能将这种理解转化为文本形式输出，极大地拓展了其应用场景。鉴于此，本文旨在打造一份详尽的教程，指导读者如何通过对主流多模态大模型进行微调，来实现目标检测任务。

深度揭秘：swift 框架下 Qwen2.5 - 7B 模型实战全流程精解

寻道AI，探索AI无限可能！

01-19

3916

在当今人工智能蓬勃发展的浪潮中，Qwen2.5-7B模型凭借其卓越的性能吸引了众多关注。然而，要充分发挥该模型的强大功能，必须深入掌握从本地部署到实际应用的各个关键环节。这一过程涵盖了构建服务器环境、精心安装各种依赖、准确下载所需模型等基础工作，为模型的顺畅运行奠定坚实根基；同时，在推理阶段，可利用swift框架结合vLLM技术进行加速，以满足不同应用场景下的多样需求；而量化技术的引入，能为模型进行“瘦身”，极大地提升资源利用效率；

Tensorflow 2 Tutorial.pdf

04-08

### Tensorflow 2 入门教程 ...Tensorflow 提供了许多强大的功能，包括高级 API、分布式训练支持等，这些将在后续章节中详细介绍。掌握这些基础知识后，你可以更进一步探索更复杂的模型和更高级的功能。

TensorFlow 2.0 - tf.distribute 分布式训练

Michael是个半路程序员

02-03

1282

文章目录1. 单机多卡 MirroredStrategy2. 多机训练 MultiWorkerMirroredStrategy 学习于：简单粗暴 TensorFlow 2 1. 单机多卡 MirroredStrategy # 分布式训练 import tensorflow as tf import tensorflow_datasets as tfds # 1 单机多卡 MirroredStrategy strategy = tf.distribute.MirroredStrategy() # 指定设备

官方 | TensorFlow 2.0分布式训练教程

小白学视觉

10-06

1188

点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达本文转自|计算机视觉联盟总览tf.distribute.Strategy是一个TensorFlow API，用于在...

官方文档翻译：Tensorflow2.0中的分布式训练

CruelPaw的博客

03-22

1862

概述 tf.distribute.Strategy是tensorflow在多GPU、多机器或多TPU上进行分布式训练用的API．使用这个API，你能在尽可能少的改动代码的同时，分布式训练你的模型． tf.distribute.Strategy主要用于实现下面这些目标．易于使用，支持多用户段，包括研究员、机器学习工程师等提供良好的开箱即用的性能易于进行策略转换 tf.distribu...

TensorFlow实例 2 ---常量、变量、占位变量

追星逐月

03-05

452

1.变量 import tensorflow as tf x = tf.Variable([2,34,56,33]) #创建变量x，为一个array print(x) #查看x的shape，不是x的值。结果是： <tf.Variable 'Variable_3:0' shape=(4,) dtype=int32_ref> with tf.Session() as sess:...

【tf2-基础】分布式训练

alexliu2360的专栏

04-28

596

GPU设置默认用全部GPU并且内存全部占满避免内存不浪费内存自增长虚拟设备机制多GPU使用虚拟GPU&实际GPU 手工&分布式 API列表 tf.debugging.set_log_device_placement tf.config.experimental.set_visible_devices tf.config.experfimental.list_logical_devices tf.config.experfimental.list_phyical_.

Tensorflow2——创建Tensor Tensor的应用场景

weixin_43201090的博客

03-13

242

一、创建tensor的几种方式 tf.convert_to_tensor() （括号内为data） from numpy , list tf.zeros，tf.zeros_like , tf.ones , tf .ones_like 新建data为0的tensor （括号内为shape）根据给定tensor的shape 新建data为0的tensor （括号内为给定tensor）新建data为1的tensor （括号内为shape） fill 用任意数值data填充形状为sha

基于TensorFlow的2个机器学习简单应用实例

AMG_GT的博客

12-10

2082

根据数据建立了一个线性模型，并设计了一个损失模型。在我们的线性模型 y=W×x+b中，不断的改变W和b的值，来找到一个使loss最小的值。使用梯度下降(Gradient Descent)优化算法，通过不断的改变模型中变量的值，来找到最小损失值。 1、实例一 #引入TensorFlow模块 import tensorflow as tf #创建节点保存W和b，并初始化 W = tf.Var...

线性回归问题：Tensorflow2实战

Hallo_ZM的博客

10-01

1317

文章目录前言环境一、基本原理和概念1.线性回归2.回归分析3.机器学习系统4.监督式机器学习5.标签和特征6.超参数7.梯度下降法二、进入实战1.准备数据2.构建模型3.训练模型4.进行预测总结前言最近准备入门图像识别领域，在了解图像识别的基本原理之后但是苦于一直不知道该如何开始自己的第一个项目，在看了几种不同的网课之后，终于发现了《深度学习应用开发-TensorFlow实践》。这是大学mooc的一门课，讲解浅显易懂，并且很容易上手，

Tensorflow实战03-利用卷积识别手写字体

美好事物

07-27

566

注：学习完深度学习的基本知识后，本练习可帮助大家逐步从理论转向实战，如果对深度学习还不太了解，前先学习深度学习的基本知识以及原理 Description： For your exercise see if you can improve MNIST to 99.8% accuracy or more using only a single convolutional layer and a single MaxPooling 2D. You should stop training once the a.

Tensorflow2 图像识别手写数字数据处理实例【人工智能深度学习笔记】

pigyellow98的博客

11-01

572

Tensorflow2 图像识别手写数字数据处理用的是Tensorflow中keras的mnist数据 import tensorflow as tf import matplotlib.pyplot as plt mnist = tf.keras.datasets.mnist (train_x,train_y),(test_x,test_y) = mnist.load_data() print("Training set:",len(train_x)) Training set: 60000 p

tensorflow实例2|tensorflow

资资的博客

09-27

671

import matplotlib.pyplot as plt init = tf.initialize_all_variables() sess = tf.Session() sess.run(init) #图片框 fig = plt.figure() ax = fig.add_subplot(1,1,1) ax.scatter(x_data,y_data) plt.show() #如果想要...