(十)关于InternVL2的模型resume训练——如何断点恢复训练多模态大模型

(十)关于InternVL2的模型resume训练——如何断点恢复训练多模态大模型

前言

本章节将介绍关于多模态大模型InternVL2的断点恢复训练,也叫resume训练。
平时在训练一些小型模型如yolo时,由于训练时间短或者数据量少,所以很少会用到resume训练。但大模型不同之处在于训练时间通常以天、周为单位计算,甚至更长。如果训练中途由于显存、内存等资源问题或者断电关机等物理原因中断而重头训练会浪费大量的时间和电费。所以本章节将介绍关于InternVL2的resume训练。


InternVL2的训练方式

目前绝大多数语言模型都是通过 transformers 库进行训练的,transformers不仅提供了训练接口,同样提供了断点恢复训练的接口。在trainer.train中使用resume_from_checkpoint参数即可断点恢复,官网对该参数的介绍如下:

在这里插入图片描述

所以如果你使用transformers的原生接口就可以很方便的进行断点恢复训练,训练过程中会保存对应步长的权重文件(这些权重文件就是恢复启动处),具体步长的设置和

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值