深度学习中的Checkpoint是什么？

最新推荐文章于 2025-11-10 23:55:35 发布

原创最新推荐文章于 2025-11-10 23:55:35 发布 · 2.5k 阅读

35 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

人工智能学习笔记专栏收录该内容

279 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

诸神缄默不语-个人优快云博文目录

文章目录

引言
1. 什么是Checkpoint？
2. 为什么需要Checkpoint？
3. 如何使用Checkpoint？
4. 在 NLP 任务中的应用
5. 总结
6. 参考资料

引言

在深度学习训练过程中，模型的训练往往需要较长的时间，并且计算资源昂贵。由于训练过程中可能遇到各种意外情况，比如断电、程序崩溃，甚至想要在不同阶段对比模型的表现，因此我们需要一种机制来保存训练进度，以便可以随时恢复。这就是**Checkpoint（检查点）**的作用。

对于刚入门深度学习的小伙伴，理解Checkpoint的概念并合理使用它，可以大大提高模型训练的稳定性和效率。本文将详细介绍Checkpoint的概念、用途以及如何在NLP任务中使用它。

1. 什么是Checkpoint？

Checkpoint（检查点）是指在训练过程中，定期保存模型的状态，包括模型的权重参数、优化器状态以及训练进度（如当前的epoch数）。这样，即使训练中断，我们也可以从最近的Checkpoint恢复训练，而不是从头开始。

简单来说，Checkpoint 就像一个存档点，让我们能够在不重头训练的情况下继续优化模型。

一个大模型的checkpoint可能以如下文件形式储存：
在这里插入图片描述

2. 为什么需要Checkpoint？

Checkpoint 的主要作用包括：

防止训练中断导致的损失：训练神经网络需要消耗大量计算资源，训练时间可能长达数小时甚至数天。如果训练因突发情况（如断电、程序崩溃）中断，Checkpoint 可以帮助我们恢复进度。
支持断点续训：当训练过程中需要调整超参数或遇到不可预见的问题时，我们可以从最近的Checkpoint继续训练，而不必重新训练整个模型。
保存最佳模型：在训练过程中，我们通常会评估模型在验证集上的表现。通过Checkpoint，我们可以保存最优表现的模型，而不是仅仅保存最后一次训练的结果。
支持迁移学习：在实际应用中，我们经常会使用预训练模型（如BERT、GPT等），然后在特定任务上进行微调（fine-tuning）。这些预训练模型的Checkpoint可以用作新的任务的起点，而不必从零开始训练。

3. 如何使用Checkpoint？

在深度学习框架（如 TensorFlow 和 PyTorch）中，Checkpoint 的使用非常方便。下面分别介绍在 TensorFlow 和 PyTorch 中如何保存和加载 Checkpoint。

3.1 TensorFlow 中的 Checkpoint

保存Checkpoint：

在 TensorFlow（Keras）中，可以使用 ModelCheckpoint 回调函数来实现自动保存。

import tensorflow as tf
from tensorflow.keras.callbacks import ModelCheckpoint

# 创建简单的模型
model = tf.keras.Sequential([
    tf.keras.layers.Dense(128, activation='relu', input_shape=(100,)),
    tf.keras.layers.Dense(10, activation='softmax')
])

model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# 设置Checkpoint，保存最优模型
checkpoint_callback = ModelCheckpoint(
    filepath='best_model.h5',  # 保存路径
    save_best_only=True,        # 仅保存最优模型
    monitor='val_loss',         # 监控的指标
    mode='min',                 # val_loss 越小越好
    verbose=1                   # 输出日志
)

# 训练模型，并使用Checkpoint
model.fit(X_train, y_train, validation_data=(X_val, y_val), epochs=10, callbacks=[checkpoint_callback])

加载Checkpoint：

from tensorflow.keras.models import load_model

# 加载已保存的模型
model = load_model('best_model.h5')

这样，我们就可以在训练过程中自动保存最优模型，并在需要时加载它。

3.2 PyTorch 中的 Checkpoint

在 PyTorch 中，我们可以使用 torch.save 和 torch.load 来手动保存和加载模型。

保存Checkpoint：

import torch

# 假设 model 是我们的神经网络，optimizer 是优化器
checkpoint = {
    'epoch': epoch,
    'model_state_dict': model.state_dict(),
    'optimizer_state_dict': optimizer.state_dict()
}
torch.save(checkpoint, 'checkpoint.pth')

加载Checkpoint：

# 加载Checkpoint
checkpoint = torch.load('checkpoint.pth')
model.load_state_dict(checkpoint['model_state_dict'])
optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
epoch = checkpoint['epoch']

在 PyTorch 中，保存和加载 Checkpoint 需要手动指定模型和优化器的状态，而 TensorFlow 处理起来更为自动化。

3.3 transformers中的Checkpoint

如果直接用transformers的Trainer的话，就会自动根据TrainingArguments的参数来设置checkpoint保存策略。具体的参数有save_strategy、save_steps、save_total_limit、load_best_model_at_end等，可以看我之前写过的关于transformers包的博文。

epochs = 10
lr = 2e-5
train_bs = 8
eval_bs = train_bs * 2

training_args = TrainingArguments(
    output_dir=output_dir,
    num_train_epochs=epochs,
    learning_rate=lr,
    per_device_train_batch_size=train_bs,
    per_device_eval_batch_size=eval_bs,
    evaluation_strategy="epoch",
    logging_steps=logging_steps
)

断点续训：

# Trainer 的定义
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset
)

# 从最近的检查点恢复训练
trainer.train(resume_from_checkpoint=True)