Qwen3大模型微调入门实战(完整代码)大模型入门到精通,收藏这篇就足够了!

部署运行你感兴趣的模型镜像

Qwen3是阿里通义实验室最近开源的大语言模型,发布时便登顶了开源LLM榜单第一名。同时,Qwen系列模型也超越LLaMA,成为了HuggingFace上最受欢迎的开源LLM。

可以说,不论是进行研究学习,还是应用落地,Qwen已经逐渐成为开发者的最优选项之一。

那么,以Qwen3作为基座大模型,通过全参数微调的方式,实现垂直专业领域聊天,甚至支持DeepSeek R1 / QwQ式的带推理过程的对话,是学习LLM微调的入门任务。
在本文中,我们会使用 Qwen3-1.7b 模型在 delicate_medical_r1_data 数据集上做全参数微调训练,实现让微调后的 Qwen3 支持对医学问题进行DeepSeek R1式的推理回复。训练中用到了transformers、datasets等工具,同时使用SwanLab监控训练过程、评估模型效果。

全参数微调需要大约32GB显存,如果你的显存大小不足,可以使用Qwen3-0.6b,或Lora微调。

  • 代码:完整代码直接看本文第5节 或 Github

    https://github.com/Zeyi-Lin/Qwen3-Medical-SFT

  • 模型:

    https://modelscope.cn/models/Qwen/Qwen3-1.7B

  • 数据集:

    https://modelscope.cn/datasets/krisfu/delicate_medical_r1_data

  • 训练过程: SwanLab基线社区搜索 “qwen3-sft-medical”

  • SwanLab:

    https://swanlab.cn

1

知识点:什么是全参数微调?

大模型全参数微调是指对预训练大模型的所有参数进行更新和优化,区别于部分参数微调和LoRA微调。

这种方法通过将整个模型权重(包括底层词嵌入、中间特征提取层和顶层任务适配层)在下游任务数据上进行梯度反向传播,使模型整体适应新任务的需求。相比仅微调部分参数,全参数微调能更充分地利用预训练模型的泛化能力,并针对特定任务进行深度适配,通常在数据差异较大或任务复杂度较高的场景下表现更优。

不过,全参数微调往往需要更高的计算资源和存储开销,且存在过拟合风险(尤其在小数据集上)。实际应用中常结合学习率调整、参数分组优化或正则化技术来缓解这些问题。

全参数微调多用于对模型表现性能要求较高的场景,例如专业领域知识问答或高精度文本生成。

下面是实战正片。

2

  1. 环境安装

本案例基于Python>=3.8,请在您的计算机上安装好Python;

另外,您的计算机上至少要有一张英伟达/昇腾显卡(显存要求大概32GB左右可以跑)。

我们需要安装以下这几个Python库,在这之前,请确保你的环境内已安装了pytorch以及CUDA:

swanlab

modelscope==1.22.0

transformers>=4.50.0

datasets==3.2.0

accelerate

pandas

addict

一键安装命令:

pip install swanlab modelscope==1.22.0"transformers>=4.50.0" datasets==3.2.0 accelerate pandas addict

本案例测试于modelscope1.22.0、transformers4.51.3、datasets3.2.0、peft0.11.1、accelerate1.6.0、swanlab0.5.7

2 2. 准备数据集

本案例使用的是 delicate_medical_r1_data 数据集,该数据集主要被用于医学对话模型。

数据集链接:

https://modelscope.cn/datasets/krisfu/delicate_medical_r1_data

该数据集由2000多条数据组成,每条数据包含Instruction、question、think、answer、metrics五列:

这里我们只取question、think、answer这三列:

  • question:用户提出的问题,即模型的输入
  • think:模型的思考过程。大家如果用过DeepSeek R1的话,回复中最开始的思考过程就是这个
  • answer:模型思考完成后,回复的内容

我们的训练任务,便是希望微调后的大模型,能够根据question,给用户一个think+answer的组合回复,并且thinkanswer在网页上的展示有区分。

理清需求后,我们设计这样一个数据集样例:

{

在训练代码执行时,会将thinkanswer按下面这样的格式组合成一条完整回复:

<think>

接下来我们来下载数据集,并进行必要的格式转换。

这个流程非常简单,执行下面的代码即可:


from modelscope.msdatasets import MsDataset

完成后,你的代码目录下会出现训练集 train.jsonl和验证集 val.jsonl文件。

至此,数据集部分完成。

3

  1. 加载模型

这里我们使用modelscope下载Qwen3-1.7B模型(modelscope在国内,所以下载不用担心速度和稳定性问题),然后把它加载到Transformers中进行训练:


from modelscope import snapshot_download, AutoTokenizer

4 4. 配置训练记录工具

我们使用SwanLab来监控整个训练过程,并评估最终的模型效果。

SwanLab 是一款开源、轻量的 AI 模型训练跟踪与可视化工具,面向人工智能与深度学习开发者,提供了一个跟踪、记录、比较、和协作实验的平台,常被称为**“中国版 Weights & Biases + Tensorboard”**。SwanLab同时支持云端和离线使用,并适配了从PyTorch、Transformers、Lightning再到LLaMA Factory、veRL等30+ AI训练框架。

这里直接使用SwanLab和Transformers的集成来实现,更多用法可以参考官方文档:

from transformers importTrainingArguments, Trainer

如果你是第一次使用SwanLab,那么还需要去https://swanlab.cn上注册一个账号,在用户设置页面复制你的API Key,然后在训练开始时,选择【2】,然后粘贴进去即可:

5

  1. 完整代码

开始训练时的目录结构:

|— train.py

|— train.jsonl

|— val.jsonl

train.py:

import json

看到下面的进度条即代表训练开始:

6

  1. 训练结果演示

在SwanLab上查看最终的训练结果:

SwanLab可视化训练仪表盘

可以看到核心要关注的指标有train loss和eval loss,同时还有在训练完成时记录的3条LLM生成测试结果。

让我们分析一下吧!使用**「创建折线图」**功能,把train loss和eval loss放到一张图上:

蓝色的是train loss,绿色的是eval loss。

可以看到发生了经典的过拟合现象:train loss会在epoch的交替阶段,阶梯式下降;而val loss在第1轮epoch是下降的,但是第二轮反而上升了,符合机器学习中经典过拟合的定义。

这也说明,在2000条数据这个量级,全参微调做1个epoch就可以了,往后反而效果越来越差。


那我们接下来看看模型生成的效果:

可以看到,微调后的模型明确地有了思考过程,并且在思考过程的前后增加了think标签

回答的质量也挺不错,不过我对医学不太了解,也希望如果有学医的同学可以一起看看!

1个example:


Question: 医生,我最近胃部不适,听说有几种抗溃疡药物可以治疗,您能详细介绍一下这些药物的分类、作用机制以及它们是如何影响胃黏膜的保护与损伤平衡的吗?

LLM:

嗯,用户问的是抗溃疡药物的分类、作用机制,以及它们如何影响胃黏膜的保护和损伤平衡。首先,我需要回忆一下抗溃疡药物的主要分类。记得以前学过,抗溃疡药物通常分为几大类,比如抑酸药、胃黏膜保护剂、促胃动力药和抗幽门螺杆菌药物。可能还有其他类型,比如吸附剂之类的,但可能用户的问题里没有提到,所以可能不需要展开。
接下来,每个类别的具体药物例子。比如抑酸药,常见的有H2受体拮抗剂和质子泵抑制剂。比如雷尼替丁、奥美拉唑这些。作用机制是抑制胃酸分泌,特别是H2受体拮抗剂通过阻断组胺引起的胃酸分泌,而质子泵抑制剂直接作用于胃酸分泌的最后一步,抑制质子泵。这部分需要详细说明。
胃黏膜保护剂的话,比如硫糖铝、铋剂,它们的作用是形成保护层,或者促进黏液分泌,比如硫糖铝可能通过黏附在黏膜表面形成保护膜,而铋剂可能促进黏液分泌,同时可能有中和胃酸的作用?或者可能主要是中和作用?需要确认。另外,胶体果胶铋可能也是例子。
促胃动力药比如多潘立酮、西沙必利,作用是增强胃蠕动,减少胃酸反流,这样胃排空快,可能减少溃疡形成。但用户的问题里提到的是促进胃排空,所以这部分需要说明。
抗幽门螺杆菌的药物通常包括抗生素,比如阿莫西林、克拉霉素,但抗幽门螺杆菌药物可能还有三联或四联疗法,比如加上PPI和铋剂。需要提到这些药物的作用机制是抑制幽门螺杆菌的生长,比如抗生素杀灭细菌,而PPI可能同时抑制胃酸分泌,但如果是抗幽门螺杆菌药物的话,可能是指专门针对该病的药物,比如可能还有铋剂或者其他药物?
不过用户的问题里提到抗幽门螺杆菌药物,可能需要明确是单独针对幽门螺杆菌,还是包括抗生素和PPI。可能需要指出,抗幽门螺杆菌药物通常包括抗生素和PPI,而PPI本身是抑酸药。所以可能需要说明这些药物如何通过抑制胃酸分泌和杀灭细菌来减少溃疡。
然后,关于作用机制如何影响胃黏膜的保护和损伤平衡。比如,抑酸药减少胃酸,从而减少对黏膜的侵蚀,同时保护剂形成保护层,促进黏液分泌,增强黏膜屏障。促胃动力药通过增加胃蠕动,减少胃酸反流,从而保护黏膜。而抗幽门螺杆菌药物通过减少胃酸分泌和杀灭细菌,减少损伤因素。
可能需要检查是否有遗漏的药物分类,比如吸附剂如活性炭,或者中和剂如氢氧化铝,但用户的问题可能只关注主要的四类。另外,是否需要提到铋剂的其他作用,比如促进黏液分泌和前列腺素合成?比如胶体果胶铋可能含有前列腺素,增强黏液分泌。
在解释机制时,要确保每个药物的作用点和如何影响保护和损伤。例如,抑酸药直接减少胃酸,而保护剂形成物理屏障。促胃动力药通过改变胃排空模式,减少反流,从而减少损伤。抗幽门螺杆菌药物通过减少胃酸和杀灭病原体,两者都减少损伤。
可能需要确认每个药物的正确分类和例子是否正确,比如西沙必利是否属于促胃动力药,或者是否属于H2受体拮抗剂?西沙必利其实是属于促胃动力药,因为它的作用是增强胃排空。而奥美拉唑是PPI,属于抑酸药。需要确保这些分类正确。
另外,用户提到自己胃部不适,可能需要建议就医,但答案里已经包含这点,所以没问题。
总结下来,结构应该是先分类,再每个类别下的药物例子和作用机制,然后说明这些机制如何影响保护和损伤平衡。需要确保每个部分都清晰,逻辑连贯,并且覆盖用户的问题点。

当然可以。抗溃疡药物主要分为四类:抑酸药、胃黏膜保护剂、促胃动力药和抗幽门螺杆菌药物。抑酸药如H₂受体拮抗剂和质子泵抑制剂,它们的作用是减少胃酸的分泌,从而减轻对胃黏膜的损伤。胃黏膜保护剂如硫糖铝和胶体果胶铋,它们能帮助形成一层保护膜,覆盖在胃黏膜表面,减少胃酸和胃蛋白酶对黏膜的侵蚀。促胃动力药如多潘立酮和西沙必利,通过增强胃部的蠕动,减少胃内食物的滞留时间,从而降低溃疡的风险。抗幽门螺杆菌药物则通过抑制幽门螺杆菌的生长,减少其对胃黏膜的伤害。这些药物的共同目标是通过不同的机制来平衡胃黏膜的保护因素和损伤因素,帮助溃疡愈合。如果您有具体的症状或担心某种药物,可以告诉我,我会为您推荐合适的治疗方案。


至此,你已经完成了qwen3微调!

7

  1. 推理训练好的模型

训好的模型默认被保存在./output/Qwen3文件夹下。

推理模型的代码如下:

import torch

8

相关链接

  • 代码:完整代码直接看本文第5节 或 Github

    https://github.com/Zeyi-Lin/Qwen3-Medical-SFT

  • 模型:

    https://modelscope.cn/models/Qwen/Qwen3-1.7B

  • 数据集:

    https://modelscope.cn/datasets/krisfu/delicate_medical_r1_data

  • 训练过程: SwanLab基线社区搜索 “qwen3-sft-medical”

  • SwanLab:

    https://swanlab.cn

想入门 AI 大模型却找不到清晰方向?备考大厂 AI 岗还在四处搜集零散资料?别再浪费时间啦!2025 年 AI 大模型全套学习资料已整理完毕,从学习路线到面试真题,从工具教程到行业报告,一站式覆盖你的所有需求,现在全部免费分享

👇👇扫码免费领取全部内容👇👇

一、学习必备:100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT,帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例?大模型电子书?这份资料帮你站在 “行业高度” 学 AI

1. 100+本大模型方向电子书

在这里插入图片描述

2. 26 份行业研究报告:覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容,涵盖:

  • 职业趋势:《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》;
  • 商业落地:《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》;
  • 领域细分:《AGI 在金融领域的应用报告》《AI GC 实践案例集》;
  • 行业监测:《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

3. 600+套技术大会 PPT:听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会,包含百度、腾讯、字节等企业的一线实践:

在这里插入图片描述

  • 安全方向:《端侧大模型的安全建设》《大模型驱动安全升级(腾讯代码安全实践)》;
  • 产品与创新:《大模型产品如何创新与创收》《AI 时代的新范式:构建 AI 产品》;
  • 多模态与 Agent:《Step-Video 开源模型(视频生成进展)》《Agentic RAG 的现在与未来》;
  • 工程落地:《从原型到生产:AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看:大厂 AI 岗面试 “弹药库”,300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗?这份面试资料帮你提前 “押题”,拒绝临场慌!

1. 107 道大厂面经:覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景,包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题,每道题都附带思路解析

2. 102 道 AI 大模型真题:直击大模型核心考点

针对大模型专属考题,从概念到实践全面覆盖,帮你理清底层逻辑:

3. 97 道 LLMs 真题:聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案,比如让很多人头疼的 “复读机问题”:


三、路线必明: AI 大模型学习路线图,1 张图理清核心内容

刚接触 AI 大模型,不知道该从哪学起?这份「AI大模型 学习路线图」直接帮你划重点,不用再盲目摸索!

在这里插入图片描述

路线图涵盖 5 大核心板块,从基础到进阶层层递进:一步步带你从入门到进阶,从理论到实战。

img

L1阶段:启航篇丨极速破界AI新时代

L1阶段:了解大模型的基础知识,以及大模型在各个行业的应用和分析,学习理解大模型的核心原理、关键技术以及大模型应用场景。

img

L2阶段:攻坚篇丨RAG开发实战工坊

L2阶段:AI大模型RAG应用开发工程,主要学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

img

L3阶段:跃迁篇丨Agent智能体架构设计

L3阶段:大模型Agent应用架构进阶实现,主要学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造Agent智能体。

img

L4阶段:精进篇丨模型微调与私有化部署

L4阶段:大模型的微调和私有化部署,更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调,并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。

img

L5阶段:专题集丨特训篇 【录播课】

img
四、资料领取:全套内容免费抱走,学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:

👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口?别犹豫,这份免费资料就是你的 “起跑线”!

您可能感兴趣的与本文相关的镜像

Llama Factory

Llama Factory

模型微调
LLama-Factory

LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值