1.如果想要在某个模型基础上做全参数微调,究竟需要多少显存?
要确定进行全参数微调所需的显存量,需要考虑以下几个因素:
- 模型的大小:模型的大小是影响所需显存量的一个主要因素。较大的模型通常需要更多的显存来存储模型的参数和中间计算结果。例如,GPT-3 模型拥有数十亿个参数,相比之下,较小的模型如GPT-2可能只有几亿个参数。
- 批次大小(Batch Size):批次大小是指一次性输入到模型进行处理的样本数量。较大的批次大小通常需要更多的显存,因为模型需要同时存储和处理更多的输入数据。批次大小的选择通常是根据显存容量和性能需求进行平衡的。
- 输入序列长度:如果你的任务涉及到处理长序列文本,例如长篇文章或整个文档,那么输入序列的长度也会对显存需求产生影响。较长的序列需要更多的显存来存储序列的表示和中间计算结果。
- 计算平台和优化:不同的计算平台和深度学习框架可能在显存使用方面存在差异。一些框架可能会提供显存优化的功能,例如梯度检查点(Gradient Checkpointing)或混合精度训练(Mixed Precision Training),以减少显存的使用。
通常,大型模型和较大的批次大小可能需要较大的显存容量。建议在进行微调之前评估和测试所用计算平台的显存容量,并根据实际情况进行调整。
2.为什么SFT之后感觉LLM傻了?
在进行 Supervised Fine-Tuning(SFT)之
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



