14 大模型微调-KitTrain

1 介绍

如何降低占用的显存:

  1. 梯度累计:在一个完整的模型更新周期(epoch)中,将多个小批量(mini-batches)的数据的梯度进行累加,然后在一个较大的批量(累积步数)之后进行一次模型参数更新。
  2. 梯度检查点;
  3. 优化器;
  4. 冻结模型参数;
  5. 参数高校微调;

但是模型本身的参数并无改变!

     之前提到的大模型微调技术都是冻结原模型的参数,然后添加额外的参数进行训练微调。下面我们针对大模型参数进行修正:比如4个字节的单精度调整为2个字节的;K-bit 训练是一种优化技术,主要用于减少模型训练过程中的内存占用和计算成本。这种方法通常涉及到使用低精度(如8位或更低)来存储和计算模型的权重,从而降低内存需求和加速训练过程。在深度学习领域,常见的低精度训练技术包括8位量化训练(8-bit training)和混合精度训练(Mixed Precision Training)。

1.1 K-bit 训练的主要形式

  1. 8位量化训练(8-bit Training)

    • 在8位量化训练中,模型的权重被量化为8位整数(int8),从而大幅减少内存占用。
    • 为了保持训练的准确性,通常会在前向传播时将量化后的权重反量化回高精度,然后在反向传播时使用高精度梯度进行更新。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值