想让大语言模型(LLM)变得更聪明、更贴合你的需求?那就得靠微调(fine-tuning)!而微调的关键在于一个精心准备的数据集。
本文将带你一步步了解如何创建和准备一个适合LLM微调的数据集,特别聚焦于如何使用Unsloth来简化这个过程。无论你是想让模型学会写代码、做总结,还是扮演某个角色,这篇指南都能帮你理清思路,少走弯路。
我们会从数据集的基本概念讲起,逐步深入到数据格式、收集、处理,以及如何用Unsloth高效应用数据集。每个部分都配有清晰的代码示例和实际操作建议,确保你能看懂、会用!

什么是数据集?为什么它这么重要?
简单来说,LLM的数据集就是一堆用来训练模型的数据集合。这些数据可以是网页文本、书籍内容、对话记录,甚至是专门为某个任务设计的指令。数据集的作用是让模型学会理解和生成符合你期望的输出。
但光有数据还不够,数据得经过“加工”才能被模型“消化”。这就涉及分词(tokenization),也就是把文本拆成一个个小单元(比如单词、子词或字符),然后转成模型能理解的数字表示(嵌入)。一个好的数据集不仅要内容丰富,还要格式规范,这样模型才能高效学习。
在微调中,数据集的格式通常有以下几种:
- • 原始语料:比如从维基百科抓取的纯文本,适合继续预训练(CPT)。
- • 指令格式:包含任务指令、输入和期望输出,适合监督微调(SFT)。
- • 对话格式:模拟用户和AI的多次对话,适合打造聊天机器人。
- • RLHF格式:对话加上人类或模型的评分,用于强化学习(RL)。
接下来,我们会详细拆解如何根据你的目标选择和准备数据集。
第一步:明确目标,选对数据
在动手收集数据之前,你得先问自己几个问题:
-
- 数据集的目的是啥? 是想让模型学会写代码、做文本总结,还是扮演某个特定角色(比如客服或医生)?
-
- 输出风格是什么? 比如,你想要JSON格式的输出,还是纯文本?语言是中文、英文,还是其他?
-
- 数据从哪来? 是用现成的CSV文件,还是从网上爬取?或者需要自己生成?
明确这些问题能帮你有的放矢。比如,如果你想让模型学会医疗领域的问答,那可以从Hugging Face找医疗相关的数据集,或者用维基百科的医学条目。如果目标是打造一个中文客服机器人,那就需要收集大量的中文对话数据,可能还得加上一些合成数据来丰富多样性。
数据来源建议:
- • Hugging Face:提供海量开源数据集,覆盖各种任务和语言。
- • 各类百科:适合语言学习或知识密集型任务。
- • 合成数据:可以用大模型(比如Llama 3.3)生成数据,但要确保质量高、内容相关。
第二步:选择合适的格式
数据集的格式直接影响模型的训练效果。以下是几种常见格式的介绍和代码示例,帮你快速上手。
1. 原始语料(Raw Corpus)
适合继续预训练,数据就是纯文本,没有特定结构。模型通过这种格式学习语言的自然流动。
{
"text": "北京烤鸭是一道传统的中国菜肴,以其酥脆的皮和嫩滑的肉闻名。制作过程包括将鸭子腌制、风干,然后在特制的烤炉中烤制。传统的北京烤鸭通常搭配薄饼、甜面酱和葱丝食用……"
}
2. 指令格式(Alpaca风格)
适合单轮任务,比如让模型根据指令生成特定输出。格式包含指令、输入(可选)和输出。
{
"instruction": "将以下句子翻译成英文。",
"input": "今天是星期五,天气很好。",
"output": "Today is Friday, and the weather is nice."
}
3. 对话格式(ShareGPT风格)
适合多轮对话场景,模拟用户和AI的交互。格式记录了“谁说啥”。
{
"conversations": [
{
"from": "human",
"value": "能教我做北京烤鸭吗?"
},
{
"from": "gpt",
"value": "当然可以!想学传统的做法还是简化的?"
},
{
"from": "human",
"value": "传统的吧!"
},
{
"from": "gpt",
"value": "好的,传统北京烤鸭需要鸭子、麦芽糖、薄饼等材料。先把鸭子腌制……"
}
]
}
4. ChatML格式(Hugging Face默认)
这是目前最常用的对话格式,结构简洁,适合多轮对话。
{
"messages": [
{
"role": "user",
"content": "1+1等于多少?"
},
{
"role": "assistant",
"content": "等于2!"
}
]
}
小贴士
- • 如果你的数据是ShareGPT格式,但模型需要ChatML格式,可以用Unsloth的
standardize_sharegpt函数转换。 - • 选择格式时,优先考虑你的任务类型:单轮任务用Alpaca,多轮对话用ChatML或ShareGPT。
第三步:用Unsloth格式化数据集
Unsloth是一个高效的微调工具,它提供了强大的聊天模板(chat template)功能,能帮你快速把数据集处理成模型能用的格式。以下是具体步骤:
1. 查看支持的模板
Unsloth支持多种模板,比如chatml、llama-3、gemma-3等。先检查有哪些可用:
from unsloth.chat_templates import CHAT_TEMPLATES
print(list(CHAT_TEMPLATES.keys()))
输出可能是:
['chatml', 'llama-3', 'gemma-3', 'mistral', ...]
2. 应用聊天模板
选择合适的模板,应用到你的分词器(tokenizer)上。比如用gemma-3模板:
from unsloth.chat_templates import get_chat_template
tokenizer = get_chat_template(
tokenizer,
chat_template="gemma-3"
)
3. 定义格式化函数
这个函数会把你的数据集中的每条数据应用上聊天模板:
def formatting_prompts_func(examples):
convos = examples["conversations"]
texts = [tokenizer.apply_chat_template(convo, tokenize=False, add_generation_prompt=False) for convo in convos]
return {"text": texts}
4. 加载并处理数据集
假设你用Hugging Face的一个数据集,比如FineTome-100k:
from datasets import load_dataset
from unsloth.chat_templates import standardize_sharegpt
# 加载数据集
dataset = load_dataset("mlabonne/FineTome-100k", split="train")
# 如果是ShareGPT格式,转换为ChatML
dataset = standardize_sharegpt(dataset)
# 应用格式化函数
dataset = dataset.map(formatting_prompts_func, batched=True)
完成这四步,你的.dataset就准备好用于微调了!
第四步:生成合成数据(可选)
如果你的数据集不够大,或者想增加多样性,可以用大模型生成合成数据。比如用Llama 3.3生成对话或指令数据。以下是一些实用提示:
合成数据的目标
- • 生成全新数据:从头创建数据,或者基于现有数据扩展。
- • 增加多样性:避免模型过拟合,让输出更通用。
- • 格式化数据:自动把数据整理成你需要的格式(比如ChatML)。
示例提示
-
- 基于现有数据集生成对话:
根据我提供的对话示例,生成更多符合同样结构和主题的对话。 -
- 无数据集时生成数据:
生成10条关于可口可乐的产品评论,分为正面、负面和中立。 -
- 格式化无结构数据:
将我的数据集整理成ChatML格式,用于微调。然后生成5条同主题的合成数据。
注意事项
- • 检查质量:生成的合成数据可能有噪声,建议人工检查或用脚本过滤低质量内容。
- • 保持平衡:确保数据集在主题、风格、语言等方面均衡,避免模型偏向某类数据。
第五步:特殊场景——视觉微调
如果你的目标是微调一个视觉语言模型(VLM),比如让模型分析X光片,数据集需要包含图像和文本。以下是一个医疗影像数据集(ROCO)的处理示例:
数据集示例
ROCO数据集包含X光片、CT扫描等影像,每张图片有专家写的描述:
Dataset({
features: ['image', 'image_id', 'caption', 'cui'],
num_rows: 1978
})
示例数据:
- • 图片:一张X光片
- • 描述:全景X光片显示右侧后上颌骨有溶骨性病变,伴有上颌窦底吸收(箭头指示)。
格式化视觉数据
视觉微调的数据格式需要包含文本指令和图像:
instruction = "你是放射科专家,准确描述这张图片的内容。"
def convert_to_conversation(sample):
conversation = [
{
"role": "user",
"content": [
{"type": "text", "text": instruction},
{"type": "image", "image": sample["image"]}
]
},
{
"role": "assistant",
"content": [
{"type": "text", "text": sample["caption"]}
]
}
]
return {"messages": conversation}
# 转换数据集
converted_dataset = [convert_to_conversation(sample) for sample in dataset]
转换后的数据示例:
{
"messages": [
{
"role": "user",
"content": [
{"type": "text", "text": "你是放射科专家,准确描述这张图片的内容。"},
{"type": "image", "image": "<PIL.PngImagePlugin.PngImageFile>"}
]
},
{
"role": "assistant",
"content": [
{"type": "text", "text": "全景X光片显示右侧后上颌骨有溶骨性病变,伴有上颌窦底吸收(箭头指示)。"}
]
}
]
}
常见问题解答
数据集需要多大?
至少100条数据才能看到初步效果,1000条以上会更好。数据质量比数量更重要,建议清洗数据,去掉无关或低质量内容。如果数据不够,可以用Hugging Face的通用数据集(如ShareGPT)补充,或者生成合成数据。
怎么处理多列数据?
像Titanic数据集这样有多列的数据(年龄、票价、舱位等),需要“合并”成一个提示。Unsloth的to_sharegpt函数可以自动处理:
from unsloth import to_sharegpt
dataset = to_sharegpt(
dataset,
merged_prompt="乘客信息:[[年龄:{age}。]][[票价:{fare}。]][[登船地:{embarked}。]]",
output_column_name="survived"
)
想让模型学会推理怎么办?
如果目标是推理能力,答案部分需要包含 思维链(chain-of-thought) 过程,详细描述推导步骤。比如:
{
"instruction": "计算1+1+1。",
"output": "让我们一步步计算:1+1=2,2+1=3。所以答案是3。"
}
总结:从零到一打造你的数据集
打造一个高效的微调数据集并不复杂,关键是明确目标、选对格式、用好工具。Unsloth的聊天模板和格式化函数能大大简化流程,让你专注于数据质量和任务设计。无论是文本任务还是视觉任务,遵循这五个步骤,你就能准备好一个让模型“听话”的数据集:
-
- 明确目标和数据来源。
-
- 选择合适的格式(Alpaca、ChatML等)。
-
- 用Unsloth格式化数据集。
-
- (可选)生成合成数据增加多样性。
-
- 对于视觉任务,正确处理图像和文本。
希望这篇指南能帮你顺利迈出微调的第一步!
普通人如何抓住AI大模型的风口?
领取方式在文末
为什么要学习大模型?
目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。
目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!
最后
只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!
在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

大模型全套学习资料展示
自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!
01 教学内容

-
从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!
-
大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
02适学人群
应届毕业生: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。

vx扫描下方二维码即可

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!
03 入门到进阶学习路线图
大模型学习路线图,整体分为5个大的阶段:

04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)

05 行业报告+白皮书合集
收集70+报告与白皮书,了解行业最新动态!

06 90+份面试题/经验
AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)

07 deepseek部署包+技巧大全

由于篇幅有限
只展示部分资料
并且还在持续更新中…
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

119

被折叠的 条评论
为什么被折叠?



