标题:视觉强化微调
论文:https://arxiv.org/pdf/2503.01785
代码:https://github.com/Liuziyu77/Visual-RFT
背景知识
1:RFT(强化微调)与之前的SFT(监督微调)之间的一个主要区别在于数据效率。
SFT范式:直接模仿高质量、精心策划的数据中提供的“正确答案”,因此依赖于大量的训练数据。RFT范式:评估模型的响应,并根据其是否正确进行调
标题:视觉强化微调
论文:https://arxiv.org/pdf/2503.01785
代码:https://github.com/Liuziyu77/Visual-RFT
背景知识
1:RFT(强化微调)与之前的SFT(监督微调)之间的一个主要区别在于数据效率。
SFT范式:直接模仿高质量、精心策划的数据中提供的“正确答案”,因此依赖于大量的训练数据。RFT范式:评估模型的响应,并根据其是否正确进行调