人工智能_大模型043_模型微调003_测试训练后模型_加载checkpoint继续训练_模型原理_神经网络算法原理_最小神经元_常用损失函数_学习率和BatchSize---人工智能工作笔记0178

添柴程序猿

于 2024-04-29 15:47:47 发布

阅读量393

点赞数 3

CC 4.0 BY-SA版权

分类专栏：深度/机器学习&爬虫文章标签：大模型神经网络神经元 checkpoint 大模型微调

本文为博主原创文章，未经博主添柴程序猿允许不得转载违者追究法律责任。

本文链接：https://blog.youkuaiyun.com/lidew521/article/details/138219996

深度/机器学习&爬虫专栏收录该内容

168 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了模型微调中关于checkpoint的使用，强调选择验证集表现最佳的模型。讨论了如何加载模型进行推理和继续训练，并探讨了神经网络的基础，包括线性函数、神经元、激活函数以及模型训练中的学习率和BatchSize对模型性能的影响。还提到了张量的概念以及随机梯度下降在训练过程中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

接上一节,可以看到上面目录是我们训练好的,结果文件

output文件夹中就对应了每100步生成的一个checkpoint.当然也可以定义每几轮生成一个checkpoint,但是,我们这里生成checkpoint是按的的步来算的,这个可以在前面设置.

「Checkpoint」指的是在特定时间点保存的模型的状态。这个状态包括了模型的参数权重和优化器的状态，使得训练可以从这个点重新开始而不是从头开始。

通常，我们通过观察在验证集上的评估结果，选择某个 checkpoint 作为最终用于推理的模型。

注意一般都是选择,最后还差几步快训练结束时候的模型做为最终模型使用,当然具体的,还需要

进行实际测试以后,采用.

10. 加载训练后的模型进行推理（参考）

```python
from transformers import AutoTokenizer, AutoModelForCausalLM

# 加载训练后的 checkpoint
model = AutoModelForCausalLM.from_pretrained("output/checkpoint-1000")

# 模型设为推理模式
model.eval()

# 加载 tokenizer
tokenizer = AutoTokenizer.from_pretra