Tensorflow笔记——断点恢复

本文详细介绍如何在深度学习训练过程中使用TensorFlow实现断点恢复,解决因训练时间长、迭代次数多导致的无法一次性完成训练的问题。文章通过具体实例演示了如何获取模型保存时的迭代轮数,自动查找并加载最新模型文件,以及如何正确设置global_step以确保从断点继续训练。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

断点恢复

在做深度学习训练的时候,由于训练时间比较长,迭代次数比较多,经常会出现无法一次完成train的情况,那么这个时候我们需要用到tensorflow中的断点恢复。不多说直接上例子

#step = int(ckpt.model_checkpoint_path.split('/')[-1].split('-')[-1])通过文件名得到模型保存时迭代的轮数

#tf.train.get_checkpoint_state函数会通过checkpoint文件自动找到目录中最新模型的文件名

ckpt = tf.train.get_checkpoint_state(CKPT_PATH)
if ckpt and ckpt.model_checkpoint_path:
    #加载模型
    saver.restore(sess,ckpt.model_checkpoint_path)

 

存model的时候,当前step的值被赋予到global_step, 所以 在train的时候要把 global_step的值赋给step,这样才可以从断点处计算。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值