(十)关于InternVL2的模型resume训练——如何断点恢复训练多模态大模型
前言
本章节将介绍关于多模态大模型InternVL2的断点恢复训练,也叫resume训练。
平时在训练一些小型模型如yolo时,由于训练时间短或者数据量少,所以很少会用到resume训练。但大模型不同之处在于训练时间通常以天、周为单位计算,甚至更长。如果训练中途由于显存、内存等资源问题或者断电关机等物理原因中断而重头训练会浪费大量的时间和电费
。所以本章节将介绍关于InternVL2的resume训练。
InternVL2的训练方式
目前绝大多数语言模型都是通过 transformers 库进行训练的,transformers不仅提供了训练接口,同样提供了断点恢复训练的接口。在trainer.train中使用resume_from_checkpoint参数即可断点恢复,官网对该参数的介绍如下:
所以如果你使用transformers的原生接口就可以很方便的进行断点恢复训练,训练过程中会保存对应步长的权重文件(这些权重文件就是恢复启动处),具体步长的设置和