Qwulu 3：基于 LoRA 和 TULU 3 监督微调方案对 Qwen3 基础模型进行微调

最新推荐文章于 2025-12-15 14:50:45 发布

runner000001

最新推荐文章于 2025-12-15 14:50:45 发布

阅读量701

点赞数 21

CC 4.0 BY-SA版权

分类专栏： LLM 文章标签：人工智能

本文链接：https://blog.youkuaiyun.com/xuner1213/article/details/149049042

LLM 专栏收录该内容

80 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

我们没有选择全参数微调，而是采用了 LoRA（低秩适应）技术，这将 GPU 需求从需要 H100 节点集群大幅降低到仅需单张 RTX 4090。最初的 TULU 3 方案是专为 Llama 3.1 模型设计、测试和评估的，而该架构距今已有近一年时间。在此期间，基础语言模型已取得显著进步。例如 Qwen3 8B 基础版在多项基准测试中明显优于 Llama 3.1 8B。

我们能否有效运用相同的 TULU 3 配方（使用相同数据集和超参数）对 Qwen3 基础模型进行后训练？

换句话说，能否训练出 TULU 风格的 Qwen3 模型？我们暂且称这个变体为 Qwulu 3。

在开展这项工作前，我的直觉判断是该方法应该能良好迁移。用于训练 TULU 3 的数据集质量上乘，而像 Qwen3 这样更强的基础模型理应能更高效地从中学习。关于复用相同超参数的假设则更大胆：虽然 Qwen3 和 Llama 3.1 具有相似的"类 Llama"架构，但超参数能否在二者间完美迁移尚不明朗，特别是考虑到实现细节存在微妙差异。

本文将验证这些假设。我们将逐步演示如何运用 TULU 3 监督微调方案训练 Qwen3 基础模型，再次借助 LoRA 技术和单块 24GB 显存显卡（RTX 4090）。通过分析模型学习曲线，观察 Qwen3 的适应效果。如您所见，Qwen3 在此设置下训练效果显著，大幅缩小了 Qwen3 8B 基础版与完整后训练官方 Qwen3 8B 之间的性能差距。

在后续文章中，我们将探讨是否可以通过强化学习（特别是 GRPO 方法）进一步改善这些结果，同样仅使用 LoRA 技术。目标是验证我们能否接近官方 Qwen3 8B 模型的性能，从而证明即使在资源有限的情况下