实例14：用静态图训练一个具有保存检查点功能的回归模型-优快云博客

该博客介绍了如何在TensorFlow中使用静态图训练一个线性回归模型，并实现保存和加载检查点功能。首先，生成模拟数据，然后构建全连接网络模型，接着在训练过程中保存检查点文件。通过定义saver对象并设置保存策略，保存模型的最新状态。在训练完成后，可以加载检查点文件继续训练或评估模型。示例代码展示了整个过程，包括模型的初始化、训练、损失可视化和模型参数的保存与加载。

实例14：用静态图训练一个具有保存检查点功能的回归模型

回归任务：对输入数据进行计算，并输出某个具体值的任务。
与之相对的还有分类任务

一、准备开发步骤

需要完成的具体步骤如下：

生成模拟样本
搭建全连接网络模型
训练模型：
在训练模型过程中，还需要完成对检查点文件的生产和载入

二、生成检查点文件

生产检查点文件步骤如下：

实例化一个saver对象
在会话中，调用saver对象的save方法保存检查点文件

1.生产saver对象

saver对象有tf.train.Saver类的实例化生成

var_list:指定要保存的变量
max_to_keep:指定要保存检查点文件的个数
keep_checkpoint_every_n_hours：指定间隔几个小时保存一次模型

saver = tf.train.Saver(tf.global_varialbe(), max_to_keep=1)

将全部变量保存起来，最多质保存一个检查点文件（一个检查点文件包含三个子文件）

2.生成检查点文件

saver.save(sess, savedir+“linermodel.cpkt”, global_step=epoch)

将检查点文件保存到savedri路径。同时，将迭代global_step的值放到检查点文件的名字中

三、载入检查点文件

kpt = tf.train.latest_chechpint(savedir) 	#找到最近的检查点文件
if kpt!=None:
	saver.restore(sess, kpt)	#载入检查点文件

四、代码实现：在线性回归模型加入保存检查点功能

# -*- coding: utf-8 -*-
#使用静态图训练一个具有检查点的回归模型

import tensorflow.compat.v1 as tf
tf.compat.v1.disable_eager_execution()
import numpy as np
import matplotlib.pyplot as plt
print(tf.__version__)

#（1）生成模拟数据
train_X = np.linspace(-1, 1, 100)
train_Y = 2 * train_X + np.random.randn(*train_X.shape) * 0.3 # y=2x，但是加入了噪声
#图形显示
plt.plot(train_X, train_Y, 'ro', label='Original data')
plt.legend()
plt.show()

tf.reset_default_graph()

#（2）建立网络模型

# 创建模型
# 占位符
X = tf.placeholder("float")
Y = tf.placeholder("float")
# 模型参数
W = tf.Variable(tf.random_normal([1]), name="weight")
b = tf.Variable(tf.zeros([1]), name="bias")
# 前向结构
z = tf.multiply(X, W)+ b
global_step = tf.Variable(0, name='global_step', trainable=False)
#反向优化
cost =tf.reduce_mean( tf.square(Y - z))
learning_rate = 0.01
optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(cost,global_step) #梯度下降

# 初始化所有变量
init = tf.global_variables_initializer()
# 定义学习参数
training_epochs = 28
display_step = 2

savedir = "log/"
saver = tf.train.Saver(tf.global_variables(), max_to_keep=1)#生成saver。 max_to_keep=1，表明最多只保存一个检查点文件

#定义生成loss可视化的函数
plotdata = { "batchsize":[], "loss":[] }
def moving_average(a, w=10):
    if len(a) < w: 
        return a[:]    
    return [val if idx < w else sum(a[(idx-w):idx])/w for idx, val in enumerate(a)]

#（3）建立session进行训练
with tf.Session() as sess:
    sess.run(init)
    kpt = tf.train.latest_checkpoint(savedir)
    if kpt!=None:
        saver.restore(sess, kpt)
     
    # 向模型输入数据
    while global_step.eval()/len(train_X) < training_epochs:
        step = int( global_step.eval()/len(train_X) )
        for (x, y) in zip(train_X, train_Y):
            sess.run(optimizer, feed_dict={X: x, Y: y})

        #显示训练中的详细信息
        if step % display_step == 0:
            loss = sess.run(cost, feed_dict={X: train_X, Y:train_Y})
            print ("global_step:", global_step.eval(), "Epoch:", step+1, "cost=", loss,"W=", sess.run(W), "b=", sess.run(b))
            if not (loss == "NA" ):
                plotdata["batchsize"].append(global_step.eval())
                plotdata["loss"].append(loss)
            saver.save(sess, savedir+"linermodel.cpkt", global_step)
                
    print (" Finished!")
    saver.save(sess, savedir+"linermodel.cpkt", global_step)
    
    print ("cost=", sess.run(cost, feed_dict={X: train_X, Y: train_Y}), "W=", sess.run(W), "b=", sess.run(b))

    #显示模型
    plt.plot(train_X, train_Y, 'ro', label='Original data')
    plt.plot(train_X, sess.run(W) * train_X + sess.run(b), label='Fitted line')
    plt.legend()
    plt.show()
    
    plotdata["avgloss"] = moving_average(plotdata["loss"])
    plt.figure(1)
    plt.subplot(211)
    plt.plot(plotdata["batchsize"], plotdata["avgloss"], 'b--')
    plt.xlabel('Minibatch number')
    plt.ylabel('Loss')
    plt.title('Minibatch run vs. Training loss')
     
    plt.show()