训练VLM(视觉语言模型)的经验

最新推荐文章于 2025-10-17 12:05:51 发布

原创

最新推荐文章于 2025-10-17 12:05:51 发布 · 1.9k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #深度学习

知乎：lym
链接：https://zhuanlan.zhihu.com/p/890327005

如果可以用prompt解决，尽量用prompt解决，因为训练（精调）的模型往往通用能力会下降，训练和长期部署成本都比较高，这个成本也包括时间成本。

基于prompt确实不行（情况包括格式输出不稳定、格式输出基本不对、任务不完全会、任务完全不会等情况，难度逐渐加大），选择上SFT微调。

业务场景基本用不到强化学习，强化解决的是最后一公里的问题，可以理解为有两种非常接近的输出（这两种输出都非常接近目标输出，此时已经解决了90%的问题），强化学习会对相同的输入，打压其中一种不希望的输出，同时增强另一种更接近目标的希望的输出（从DPO loss就可以看出）。强化是用来应对细微输出差异的，并且业务场景优先用DPO，DPO只需要pair对数据，更好构造。PPO的reward model几乎没有开源的，需要的数据更多，超参也更多，除非是逻辑或代码场景，在文本场景中，DPO效果是足够的。

业务数据质量最重要，数据量也不能少，越难的任务数据量越多

数据内容：要尽量和期望输出一致，这个一致既包括内容，也包括格式。不要期望垃圾数据能训练出好的VLM模型，不要寄希望于dalle3那种recaptioning，依靠泛化能力变换格式的玩法太高级了，我还把我不住。可以用 手工标注数据+GPT改写(甚至可以是Vision版本) 生成质量尽可能高的业务数据。改写用的GPT原本没有解决对应任务的能力也不要怕，在改写的prompt模板让它参考人工标注就行。

数据量：如果模型会该类任务，但仅是输出格式不稳定（比如json少个括号，文本输出少个\n什么的），几十到上百条业务数据就够了，不用考虑通用数据；一般普通业务需要千条业务数据（类似数据在VLM模型预训练的训练集出现过，但模型对于该任务处于会与不会区间），需要少量通用数据（10:1，1份通用）。如果特别难的task，VLM模型根本没见过（比如文生图生成数据，输出的文本也和输入图之间的关系需要重学），那需要1-2w条业务数据，通用数据5:1。

训练轮次：我训练的task就特别难，4B左右的模型甚至训练10个epoch测试集的loss还在下降。但是一般7B模型训5个epoch，70B模型训练2个epoch，就会开始过拟合了。下面是比较正常的收敛曲线。