【干货】大语言模型(LLM)微调核心：数据集准备全流程详解，建议收藏！

最新推荐文章于 2025-11-23 19:13:18 发布

原创最新推荐文章于 2025-11-23 19:13:18 发布 · 1k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理 #产品经理 #ai #学习 #大模型

想让大语言模型（LLM）变得更聪明、更贴合你的需求？那就得靠微调（fine-tuning）！而微调的关键在于一个精心准备的数据集。

本文将带你一步步了解如何创建和准备一个适合LLM微调的数据集，特别聚焦于如何使用Unsloth来简化这个过程。无论你是想让模型学会写代码、做总结，还是扮演某个角色，这篇指南都能帮你理清思路，少走弯路。

我们会从数据集的基本概念讲起，逐步深入到数据格式、收集、处理，以及如何用Unsloth高效应用数据集。每个部分都配有清晰的代码示例和实际操作建议，确保你能看懂、会用！

什么是数据集？为什么它这么重要？

简单来说，LLM的数据集就是一堆用来训练模型的数据集合。这些数据可以是网页文本、书籍内容、对话记录，甚至是专门为某个任务设计的指令。数据集的作用是让模型学会理解和生成符合你期望的输出。

但光有数据还不够，数据得经过“加工”才能被模型“消化”。这就涉及分词（tokenization），也就是把文本拆成一个个小单元（比如单词、子词或字符），然后转成模型能理解的数字表示（嵌入）。一个好的数据集不仅要内容丰富，还要格式规范，这样模型才能高效学习。

在微调中，数据集的格式通常有以下几种：

• 原始语料：比如从维基百科抓取的纯文本，适合继续预训练（CPT）。
• 指令格式：包含任务指令、输入和期望输出，适合监督微调（SFT）。
• 对话格式：模拟用户和AI的多次对话，适合打造聊天机器人。
• RLHF格式：对话加上人类或模型的评分，用于强化学习（RL）。

接下来，我们会详细拆解如何根据你的目标选择和准备数据集。

第一步：明确目标，选对数据

在动手收集数据之前，你得先问自己几个问题：

1. 数据集的目的是啥？ 是想让模型学会写代码、做文本总结，还是扮演某个特定角色（比如客服或医生）？
1. 输出风格是什么？ 比如，你想要JSON格式的输出，还是纯文本？语言是中文、英文，还是其他？
1. 数据从哪来？ 是用现成的CSV文件，还是从网上爬取？或者需要自己生成？

明确这些问题能帮你有的放矢。比如，如果你想让模型学会医疗领域的问答，那可以从Hugging Face找医疗相关的数据集，或者用维基百科的医学条目。如果目标是打造一个中文客服机器人，那就需要收集大量的中文对话数据，可能还得加上一些合成数据来丰富多样性。

数据来源建议：

• Hugging Face：提供海量开源数据集，覆盖各种任务和语言。
• 各类百科：适合语言学习或知识密集型任务。
• 合成数据：可以用大模型（比如Llama 3.3）生成数据，但要确保质量高、内容相关。

第二步：选择合适的格式

数据集的格式直接影响模型的训练效果。以下是几种常见格式的介绍和代码示例，帮你快速上手。

1. 原始语料（Raw Corpus）

适合继续预训练，数据就是纯文本，没有特定结构。模型通过这种格式学习语言的自然流动。

{
  "text": "北京烤鸭是一道传统的中国菜肴，以其酥脆的皮和嫩滑的肉闻名。制作过程包括将鸭子腌制、风干，然后在特制的烤炉中烤制。传统的北京烤鸭通常搭配薄饼、甜面酱和葱丝食用……"
}

2. 指令格式（Alpaca风格）

适合单轮任务，比如让模型根据指令生成特定输出。格式包含指令、输入（可选）和输出。

{
  "instruction": "将以下句子翻译成英文。",
  "input": "今天是星期五，天气很好。",
  "output": "Today is Friday, and the weather is nice."
}

3. 对话格式（ShareGPT风格）

适合多轮对话场景，模拟用户和AI的交互。格式记录了“谁说啥”。

{
  "conversations": [
    {
      "from": "human",
      "value": "能教我做北京烤鸭吗？"
    },
    {
      "from": "gpt",
      "value": "当然可以！想学传统的做法还是简化的？"
    },
    {
      "from": "human",
      "value": "传统的吧！"
    },
    {
      "from": "gpt",
      "value": "好的，传统北京烤鸭需要鸭子、麦芽糖、薄饼等材料。先把鸭子腌制……"
    }
  ]
}

4. ChatML格式（Hugging Face默认）

这是目前最常用的对话格式，结构简洁，适合多轮对话。

{
  "messages": [
    {
      "role": "user",
      "content": "1+1等于多少？"
    },
    {
      "role": "assistant",
      "content": "等于2！"
    }
  ]
}

小贴士

• 如果你的数据是ShareGPT格式，但模型需要ChatML格式，可以用Unsloth的standardize_sharegpt函数转换。
• 选择格式时，优先考虑你的任务类型：单轮任务用Alpaca，多轮对话用ChatML或ShareGPT。

第三步：用Unsloth格式化数据集

Unsloth是一个高效的微调工具，它提供了强大的聊天模板（chat template）功能，能帮你快速把数据集处理成模型能用的格式。以下是具体步骤：

1. 查看支持的模板

Unsloth支持多种模板，比如chatml、llama-3、gemma-3等。先检查有哪些可用：

from unsloth.chat_templates import CHAT_TEMPLATES
print(list(CHAT_TEMPLATES.keys()))

输出可能是：

['chatml', 'llama-3', 'gemma-3', 'mistral', ...]

2. 应用聊天模板

选择合适的模板，应用到你的分词器（tokenizer）上。比如用gemma-3模板：

from unsloth.chat_templates import get_chat_template

tokenizer = get_chat_template(
    tokenizer,
    chat_template="gemma-3"
)

3. 定义格式化函数

这个函数会把你的数据集中的每条数据应用上聊天模板：

def formatting_prompts_func(examples):
    convos = examples["conversations"]
    texts = [tokenizer.apply_chat_template(convo, tokenize=False, add_generation_prompt=False) for convo in convos]
    return {"text": texts}

4. 加载并处理数据集

假设你用Hugging Face的一个数据集，比如FineTome-100k：

from datasets import load_dataset
from unsloth.chat_templates import standardize_sharegpt

# 加载数据集
dataset = load_dataset("mlabonne/FineTome-100k", split="train")

# 如果是ShareGPT格式，转换为ChatML
dataset = standardize_sharegpt(dataset)

# 应用格式化函数
dataset = dataset.map(formatting_prompts_func, batched=True)

完成这四步，你的.dataset就准备好用于微调了！

第四步：生成合成数据（可选）

如果你的数据集不够大，或者想增加多样性，可以用大模型生成合成数据。比如用Llama 3.3生成对话或指令数据。以下是一些实用提示：

合成数据的目标

• 生成全新数据：从头创建数据，或者基于现有数据扩展。
• 增加多样性：避免模型过拟合，让输出更通用。
• 格式化数据：自动把数据整理成你需要的格式（比如ChatML）。

示例提示

基于现有数据集生成对话：

根据我提供的对话示例，生成更多符合同样结构和主题的对话。

无数据集时生成数据：

生成10条关于可口可乐的产品评论，分为正面、负面和中立。

格式化无结构数据：

将我的数据集整理成ChatML格式，用于微调。然后生成5条同主题的合成数据。

注意事项

• 检查质量：生成的合成数据可能有噪声，建议人工检查或用脚本过滤低质量内容。
• 保持平衡：确保数据集在主题、风格、语言等方面均衡，避免模型偏向某类数据。

第五步：特殊场景——视觉微调

如果你的目标是微调一个视觉语言模型（VLM），比如让模型分析X光片，数据集需要包含图像和文本。以下是一个医疗影像数据集（ROCO）的处理示例：

数据集示例

ROCO数据集包含X光片、CT扫描等影像，每张图片有专家写的描述：

Dataset({
    features: ['image', 'image_id', 'caption', 'cui'],
    num_rows: 1978
})

示例数据：

• 图片：一张X光片
• 描述：全景X光片显示右侧后上颌骨有溶骨性病变，伴有上颌窦底吸收（箭头指示）。

格式化视觉数据

视觉微调的数据格式需要包含文本指令和图像：

instruction = "你是放射科专家，准确描述这张图片的内容。"

def convert_to_conversation(sample):
    conversation = [
        {
            "role": "user",
            "content": [
                {"type": "text", "text": instruction},
                {"type": "image", "image": sample["image"]}
            ]
        },
        {
            "role": "assistant",
            "content": [
                {"type": "text", "text": sample["caption"]}
            ]
        }
    ]
    return {"messages": conversation}

# 转换数据集
converted_dataset = [convert_to_conversation(sample) for sample in dataset]

转换后的数据示例：

{
  "messages": [
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "你是放射科专家，准确描述这张图片的内容。"},
        {"type": "image", "image": "<PIL.PngImagePlugin.PngImageFile>"}
      ]
    },
    {
      "role": "assistant",
      "content": [
        {"type": "text", "text": "全景X光片显示右侧后上颌骨有溶骨性病变，伴有上颌窦底吸收（箭头指示）。"}
      ]
    }
  ]
}

常见问题解答

数据集需要多大？

至少100条数据才能看到初步效果，1000条以上会更好。数据质量比数量更重要，建议清洗数据，去掉无关或低质量内容。如果数据不够，可以用Hugging Face的通用数据集（如ShareGPT）补充，或者生成合成数据。

怎么处理多列数据？

像Titanic数据集这样有多列的数据（年龄、票价、舱位等），需要“合并”成一个提示。Unsloth的to_sharegpt函数可以自动处理：

from unsloth import to_sharegpt

dataset = to_sharegpt(
    dataset,
    merged_prompt="乘客信息：[[年龄：{age}。]][[票价：{fare}。]][[登船地：{embarked}。]]",
    output_column_name="survived"
)

想让模型学会推理怎么办？

如果目标是推理能力，答案部分需要包含 思维链（chain-of-thought） 过程，详细描述推导步骤。比如：

{
  "instruction": "计算1+1+1。",
  "output": "让我们一步步计算：1+1=2，2+1=3。所以答案是3。"
}

总结：从零到一打造你的数据集

打造一个高效的微调数据集并不复杂，关键是明确目标、选对格式、用好工具。Unsloth的聊天模板和格式化函数能大大简化流程，让你专注于数据质量和任务设计。无论是文本任务还是视觉任务，遵循这五个步骤，你就能准备好一个让模型“听话”的数据集：

1. 明确目标和数据来源。
1. 选择合适的格式（Alpaca、ChatML等）。
1. 用Unsloth格式化数据集。
1. （可选）生成合成数据增加多样性。
1. 对于视觉任务，正确处理图像和文本。

希望这篇指南能帮你顺利迈出微调的第一步！

普通人如何抓住AI大模型的风口？

领取方式在文末

为什么要学习大模型？

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

目前，开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景，其中，应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展，相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业：
在这里插入图片描述

人工智能大潮已来，不加入就可能被淘汰。如果你是技术人，尤其是互联网从业者，现在就开始学习AI大模型技术，真的是给你的人生一个重要建议！

最后

只要你真心想学习AI大模型技术，这份精心整理的学习资料我愿意无偿分享给你，但是想学技术去乱搞的人别来找我！

在当前这个人工智能高速发展的时代，AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长，真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料，能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来，我们不断打磨课程体系与技术内容，在细节上精益求精，同时在技术层面也新增了许多前沿且实用的内容，力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径，能够帮助你从零入门，进阶到实战，真正掌握AI时代的核心技能！

01 教学内容

从零到精通完整闭环：【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块，内容比传统教材更贴近企业实战！
大量真实项目案例： 带你亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

02适学人群

应届毕业生‌： 无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌： 非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈： 传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

vx扫描下方二维码即可
在这里插入图片描述

本教程比较珍贵，仅限大家自行学习，不要传播！更严禁商用！

03 入门到进阶学习路线图

大模型学习路线图，整体分为5个大的阶段：

04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程（涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向）

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路（不吹牛，真有用）

05 行业报告+白皮书合集

收集70+报告与白皮书，了解行业最新动态！

06 90+份面试题/经验

AI大模型岗位面试经验总结（谁学技术不是为了赚$呢，找个好的岗位很重要）
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述