回调函数是做什么的?
当你在训练模型时,中间可能要做一些事情。
Tensorboard:在模型训练过程中,可视化
earlystopping:当loss不再下降时,提前停止训练。默认monitor验证集的loss,即val_loss。
ModelCheckpoint:所有参数的中间状态,这个callback可以在训练过程中每隔一段时间把Checkpoint保存下来。
# Tensorboard(需要一个文件夹), earlystopping, ModelCheckpoint(需要一个文件名)
logdir = os.path.join("callbacks")
if not os.path.exists(logdir):
os.mkdir(logdir)
output_model_file = os.path.join(logdir,
"fashion_mnist_model.h5")
callbacks = [
keras.callbacks.TensorBoard(logdir),
keras.callbacks.ModelCheckpoint(output_model_file,
save_best_only = True),#保存最好的模型,默认保存最近的
keras.callbacks.EarlyStopping(patience=5, min_delta=1e-3),
]
"""添加callback是在训练过程中做监听,所以是在fit函数中进行添加
添加方式:定义一个callbacks数组,
在fit函数中把数组作为参数传进来
"""
history = model.fit(x_train_scaled, y_train, epochs=10,
validation_data=(x_valid_scaled, y_valid),
callbacks = callbacks)
接下来通过命令行进入到刚刚定义的文件夹的上一层目录,运行:
tensorboard –-logdir=callbacks
浏览器(最好google):localhost:6006
显示如下:
显示多个tensorboard,需要用命令:tensorboard --logdir=linear:path1,dnn:path2 。不过tensorboard版本不同,参数不同,最新的2.1.0版本,需要用tensorboard --logdir_spec=linear:path1,dnn:path2 才可以,具体你可以使用tensorboard --help查看参数的作用.
如果在上面程序运行时报错,请jupyter中打开的其他程序shutdown,或者重启jupyter。
如果报错:Function call stack:distributed_function
则在代码中(import后)添加:
physical_devices = tf.config.experimental.list_physical_devices('GPU')
assert len(physical_devices) > 0, "Not enough GPU hardware devices available"
tf.config.experimental.set_memory_growth(physical_devices[0], True)
note:如果要重复运行,需要将callback文件夹中的文件清空,否则tensorboard显示的图会很乱