微调 Qwen3：基础模型与推理模型对比

原创已于 2025-07-08 09:02:16 修改 · 1.6k 阅读

·

28

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #人工智能

于 2025-07-04 09:27:38 首次发布

LLM 专栏收录该内容

80 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

Qwen3 LLMs 不仅能力强大，而且易于运行。部分模型体积足够小，可在单张 GPU 上进行微调或推理。

Qwen 团队发布了两类模型：Qwen3 和 Qwen3-Base。命名方式可能与您习惯的有所不同。例如 Llama 模型中，无后缀名称（如 Llama 3.1 8B）指代基础预训练版本，而 Llama 3.1 8B Instruct 是经过后训练的版本。Qwen3 则恰好相反：

Qwen3 是后训练模型（经过对话/指令调优+推理能力训练）。
Qwen3-Base 是原始预训练模型，未经过对齐或指令调优处理。

那么，如果你想用自己的数据微调其中某个模型，该如何选择呢？

本文将分别对 Qwen3-14B 和 Qwen3-14B-Base 进行微调，然后比较推理时开启/关闭推理功能的情况下两个模型的表现差异。微调过程使用 Unsloth 在单块 GPU 上完成。我还会展示运行所需显存的具体要求。

微调 Qwen3 的 GPU 需求

使用多块 80GB 显存的 GPU

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

runner000001 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。