本文详细介绍了如何将领域内零散知识文档用于微调大语言模型的完整流程。首先通过MinerU工具将PDF、DOCX等文件统一转换为Markdown格式,然后利用Easy-dataset结合基础大模型将Markdown文档自动构建成问答数据集,最后使用LLaMA Factory框架加载此数据集对大模型进行微调,并通过Swanlab实时监控训练过程,最终训练出一个能理解特定领域知识的垂直领域大模型。

一、引言
1.1 什么是微调大模型?
微调(Fine-tuning)大模型,就像是给一个已经学富五车的大脑(预训练的基础大模型),进行一次针对性的“专业强化训练”。基础大模型通过海量数据学习了通用的语言规律和世界知识,但对于特定领域、特定任务,它可能还不够“精通”。微调就是利用少量、高质量的领域数据,在基础模型之上继续训练,让模型更好地适应新的任务或领域。也就是让大模型从一个广度很强的通才,在某个领域树上的技能加强变成一位专才。
尤其常用的LoRA(Low-Rank Adaptation)等高效微调方法,通过只调整模型中很少一部分参数或添加少量额外层,就能达到很好的效果,大大降低了所需的计算资源和时间,让模型“学得又快又专”。

Lora微调原理,在大模型权重文件的输出时,再添加一个可训练的低秩矩阵
1.2 为什么需要微调大语言模型
预训练的大语言模型虽然强大,能理解和生成各种文本,但它们是“通才”,缺乏对特定领域细致入微的理解或完成特定复杂任务的能力。比如,在一个高度专业的行业(如医疗、法律、金融或企业内部知识库)中,模型可能不理解行业黑话、处理不了特有的文档格式或无法给出基于内部规章的准确回答。
通过微调,我们可以用该领域的特有数据对其进行“定制化”训练,让模型掌握领域内的专业知识、术语和逻辑,从而使其成为该领域的“专家”,能够更准确、高效地处理垂直领域的复杂问题,提供更具价值的服务。
二、数据集准备
2.1 领域大模型微调
想象一下,在您熟悉的某个行业或公司内部,随着时间的推移,沉淀了无数宝贵的知识和经验。这些信息通常零散地存储在各种PDF、Word文档甚至扫描件中,它们是领域的精华,却也形成了难以逾越的“知识孤岛”。想要从中快速准确地找到所需的信息,或是理解某个复杂概念,往往需要耗费大量时间和精力,对于新手来说更是门槛很高。
试想,如果能有一个AI助手,它不仅能理解通用语言,更能像一位资深的领域专家一样,透彻地掌握并运用这些独有的垂直领域知识,随时为您答疑解惑,那该多好?这正是领域大模型微调的核心价值所在——通过将通用大模型的能力与特定领域的宝贵数据结合,我们可以打造出真正理解并能应用这些知识的垂直领域智能体。
这个时候,用领域内知识微调后大语言模型便能派上用场了。下面我将会从整体流程的角度,梳理一遍大语言模型微调全流程的方法论,以及开源工具的使用,从而实现更加高效、安全的模型训练与部署。

本文的思路展示,收集领域知识文档→统一转换为Markdown格式→构造微调数据集→微调大语言模型
关于一些更加具体的操作后续会逐渐填坑~
2.2 文档格式的统一转换
通常,由于行业内多年的知识沉淀,往往会留存大量的文件扫描件,一些遗失多年的word,为了能让后续对这些文档能进行统一的处理,我们需要将他们的格式统一为Markdown格式。
Markdown是一种轻量级标记语言,排版语法简洁,让人们更多地关注内容本身而非排版。它使用易读易写的纯文本格式编写文档,可与HTML混编,可导出 HTML、PDF 以及本身的.md 格式的文件。更多的相关的介绍可以参考这边的链接
Markdown 基本语法 | Markdown 教程markdown.com.cn/basic-syntax/
这边我以一个国产的工具 MinerU为例,这个工具支持本地离线部署,也可以在线使用,笔者体验下来这个工具对于pdf的识别相当的好,但是对于doc识别还是不是很好。如果有需要的话可以将doc转换为pdf再使用MinerU进行识别。
MinerUmineru.net/
这边我以一篇pdf格式的论文为例,右侧是识别出来的Markdown预览文件,可以看出来对于文字和公式的识别还是相当准确的。

windows客户端可以在线识别,但是目前只支持导出Latex,docx,HTML格式的文件
如果想要导出Markdown文件到本地,可以在本地本地部署下MinerU,或者直接在魔搭社区的创空间进行体验
MinerU (PDF转Markdown/JSON) · 创空间www.modelscope.cn/studios/OpenDataLab/MinerU

2.3 构建微调数据集
现在我们得到了markdown格式的数据文件,但是这些数据仍然不能直接用来微调大模型。因为大模型所完成的任务,是通过问答的形式实现的。 也就是说,我们需要将文档的知识点全都变成一问一答的形式才能进行微调。早期的数据集构造是一个非常耗时,重复性的工作,需要人类去进行一步步地构造问题,并且根据文档的内容进行解答,但也正是这些前人的不断努力,堆出了现在大语言模型的繁荣。
在当前的AI水平下,让大语言模型辅助实现问答对的构造已经是一个很常见的策略了。这边我们可以使用一个国产开源工具Easy-dataset进行处理。
easy-dataset/README.zh-CN.md at main · ConardLi/easy-datasetgithub.com/ConardLi/easy-dataset/blob/main/README.zh-CN.md

Easy-dataset工具流程示意
在处理文档之前,首先我们需要本地部署一个基础的大语言模型,这里我们使用ollama部署qwen2.5-7b模型,具体的操作可以参考下面的链接~
Ollama使用指南【超全版】 - 知乎zhuanlan.zhihu.com/p/704951717
总的来说,Easy-dataset通过我们上传的Markdown文件,将文本内容进行分割,之后让大语言模型对每个分割的片段进行提问,在生成所有的问题之后,再利用相关的片段与生成的问题对大语言模型进行提问,从而实现了将文档知识变成问答对的形式。

上传Markdown之后对文档进行了切分,总共被分成了33个切片

总共生成了173个问答对

点开其中一个问答对,效果如图

上面问答对的原文内容如上,可以看出模型对于知识点的提取还是相当准确且有价值的
下一步,我们直接导出微调数据集便可以开始微调。
三、 微调大语言模型
3.1 成本估算
在本次的演示中,我使用的是Qwen2.5-7B-Instruct模型,模型的大小为70亿参数,权重文件约15GB。在默认参数下,在NVIDIA A100-PCIE-40GB显卡上进行微调,占用19.79GB显存。一般来说,只要显卡显存大于19.79GB便可以完全复现本次实验,例如4090 24GB也是可以运行的。
3.2 微调工具的部署
为了微调大语言模型,这边我们可以使用llamafactory进行微调,Swanlab进行模型训练的监测,由于llamafactory是自带Swanlab适配的,所以仅需要在llamafactory中配置Swanlab秘钥即可。
关于llamafactory的部署,可以参考其中官方文档
安装 - LLaMA Factoryllamafactory.readthedocs.io/zh-cn/latest/getting_started/installation.html
安装完成后,按照文档中的要求,导入我们刚才生成的数据集到data文件夹下,之后记得在data_info.json进行注册,启动llamafactory之后我们便可以预览数据集了

预览数据集,确保选中正确的文件
3.3 启用训练参数的监测工具
为了实时监测训练的状态,可以使用Swanlab作为一个跟踪、记录、比较、和协作实验的平台,这个工具支持实时云端同步训练的参数变化。可以在官网注册一个API,添加到llamafactory中即可
SwanLab官方文档 | 先进的AI团队协作与模型创新引擎docs.swanlab.cn/

llamafactory中启用swanlab
配置好参数后便可以愉快地开启训练啦~
在Chat处我们首先测试下没有经过领域数据集微调的模型回答的效果,大模型由于在早期的预训练阶段已经学习大量的公开知识,所以具备一定的知识储备,但是这边和我们期望的垂直应用的回答还是有一定的区别。

原始模型的回答
这边我们选择好刚才训练的检查点路径,就可以体验学习了新知识后的模型了

可以看出大模型已经把这些知识学进去了
在Swanlab中,我们也可以查看刚才训练的各项参数曲线,下面的是我训练过程的参数曲线(这边我简略地设置了下训练参数,效果可能不佳,具体的需要考虑数据集的数量,基模型大小等因素)

SwanLab基线社区搜索作者ID cathelloya
四、 小结
本文绍了如何将领域内零散的知识文档用于微调大语言模型。首先,通过MinerU等工具将PDF、DOCX等文件统一转换为Markdown格式。接着,利用Easy-dataset并结合基础大模型(如通过Ollama部署),将Markdown文档内容自动化地构建成问答数据集。最后,使用LLaMA Factory框架加载此数据集对大模型进行微调,并借助SwanLab等工具实时监控训练过程,从而训练出一个能理解特定领域知识的垂直领域大模型。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】


为什么要学习大模型?
我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。


大模型入门到实战全套学习大礼包
1、大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

2、大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

3、AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

4、大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

5、大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

适用人群

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

大模型微调全流程指南
908

被折叠的 条评论
为什么被折叠?



