【干货】大语言模型(LLM)微调核心:数据集准备全流程详解,建议收藏!

想让大语言模型(LLM)变得更聪明、更贴合你的需求?那就得靠微调(fine-tuning)!而微调的关键在于一个精心准备的数据集。

本文将带你一步步了解如何创建和准备一个适合LLM微调的数据集,特别聚焦于如何使用Unsloth来简化这个过程。无论你是想让模型学会写代码、做总结,还是扮演某个角色,这篇指南都能帮你理清思路,少走弯路。

我们会从数据集的基本概念讲起,逐步深入到数据格式、收集、处理,以及如何用Unsloth高效应用数据集。每个部分都配有清晰的代码示例和实际操作建议,确保你能看懂、会用!

什么是数据集?为什么它这么重要?

简单来说,LLM的数据集就是一堆用来训练模型的数据集合。这些数据可以是网页文本、书籍内容、对话记录,甚至是专门为某个任务设计的指令。数据集的作用是让模型学会理解和生成符合你期望的输出。

但光有数据还不够,数据得经过“加工”才能被模型“消化”。这就涉及分词(tokenization),也就是把文本拆成一个个小单元(比如单词、子词或字符),然后转成模型能理解的数字表示(嵌入)。一个好的数据集不仅要内容丰富,还要格式规范,这样模型才能高效学习。

在微调中,数据集的格式通常有以下几种:

  • 原始语料:比如从维基百科抓取的纯文本,适合继续预训练(CPT)。
  • 指令格式:包含任务指令、输入和期望输出,适合监督微调(SFT)。
  • 对话格式:模拟用户和AI的多次对话,适合打造聊天机器人。
  • RLHF格式:对话加上人类或模型的评分,用于强化学习(RL)。

接下来,我们会详细拆解如何根据你的目标选择和准备数据集。

第一步:明确目标,选对数据

在动手收集数据之前,你得先问自己几个问题:

    1. 数据集的目的是啥? 是想让模型学会写代码、做文本总结,还是扮演某个特定角色(比如客服或医生)?
    1. 输出风格是什么? 比如,你想要JSON格式的输出,还是纯文本?语言是中文、英文,还是其他?
    1. 数据从哪来? 是用现成的CSV文件,还是从网上爬取?或者需要自己生成?

明确这些问题能帮你有的放矢。比如,如果你想让模型学会医疗领域的问答,那可以从Hugging Face找医疗相关的数据集,或者用维基百科的医学条目。如果目标是打造一个中文客服机器人,那就需要收集大量的中文对话数据,可能还得加上一些合成数据来丰富多样性。

数据来源建议

  • Hugging Face:提供海量开源数据集,覆盖各种任务和语言。
  • 各类百科:适合语言学习或知识密集型任务。
  • 合成数据:可以用大模型(比如Llama 3.3)生成数据,但要确保质量高、内容相关。

第二步:选择合适的格式

数据集的格式直接影响模型的训练效果。以下是几种常见格式的介绍和代码示例,帮你快速上手。

1. 原始语料(Raw Corpus)

适合继续预训练,数据就是纯文本,没有特定结构。模型通过这种格式学习语言的自然流动。

{
  "text": "北京烤鸭是一道传统的中国菜肴,以其酥脆的皮和嫩滑的肉闻名。制作过程包括将鸭子腌制、风干,然后在特制的烤炉中烤制。传统的北京烤鸭通常搭配薄饼、甜面酱和葱丝食用……"
}
2. 指令格式(Alpaca风格)

适合单轮任务,比如让模型根据指令生成特定输出。格式包含指令、输入(可选)和输出。

{
  "instruction": "将以下句子翻译成英文。",
  "input": "今天是星期五,天气很好。",
  "output": "Today is Friday, and the weather is nice."
}
3. 对话格式(ShareGPT风格)

适合多轮对话场景,模拟用户和AI的交互。格式记录了“谁说啥”。

{
  "conversations": [
    {
      "from": "human",
      "value": "能教我做北京烤鸭吗?"
    },
    {
      "from": "gpt",
      "value": "当然可以!想学传统的做法还是简化的?"
    },
    {
      "from": "human",
      "value": "传统的吧!"
    },
    {
      "from": "gpt",
      "value": "好的,传统北京烤鸭需要鸭子、麦芽糖、薄饼等材料。先把鸭子腌制……"
    }
  ]
}
4. ChatML格式(Hugging Face默认)

这是目前最常用的对话格式,结构简洁,适合多轮对话。

{
  "messages": [
    {
      "role": "user",
      "content": "1+1等于多少?"
    },
    {
      "role": "assistant",
      "content": "等于2!"
    }
  ]
}
小贴士
  • • 如果你的数据是ShareGPT格式,但模型需要ChatML格式,可以用Unsloth的standardize_sharegpt函数转换。
  • • 选择格式时,优先考虑你的任务类型:单轮任务用Alpaca,多轮对话用ChatML或ShareGPT。

第三步:用Unsloth格式化数据集

Unsloth是一个高效的微调工具,它提供了强大的聊天模板(chat template)功能,能帮你快速把数据集处理成模型能用的格式。以下是具体步骤:

1. 查看支持的模板

Unsloth支持多种模板,比如chatmlllama-3gemma-3等。先检查有哪些可用:

from unsloth.chat_templates import CHAT_TEMPLATES
print(list(CHAT_TEMPLATES.keys()))

输出可能是:

['chatml', 'llama-3', 'gemma-3', 'mistral', ...]
2. 应用聊天模板

选择合适的模板,应用到你的分词器(tokenizer)上。比如用gemma-3模板:

from unsloth.chat_templates import get_chat_template

tokenizer = get_chat_template(
    tokenizer,
    chat_template="gemma-3"
)
3. 定义格式化函数

这个函数会把你的数据集中的每条数据应用上聊天模板:

def formatting_prompts_func(examples):
    convos = examples["conversations"]
    texts = [tokenizer.apply_chat_template(convo, tokenize=False, add_generation_prompt=False) for convo in convos]
    return {"text": texts}
4. 加载并处理数据集

假设你用Hugging Face的一个数据集,比如FineTome-100k

from datasets import load_dataset
from unsloth.chat_templates import standardize_sharegpt

# 加载数据集
dataset = load_dataset("mlabonne/FineTome-100k", split="train")

# 如果是ShareGPT格式,转换为ChatML
dataset = standardize_sharegpt(dataset)

# 应用格式化函数
dataset = dataset.map(formatting_prompts_func, batched=True)

完成这四步,你的.dataset就准备好用于微调了!

第四步:生成合成数据(可选)

如果你的数据集不够大,或者想增加多样性,可以用大模型生成合成数据。比如用Llama 3.3生成对话或指令数据。以下是一些实用提示:

合成数据的目标
  • 生成全新数据:从头创建数据,或者基于现有数据扩展。
  • 增加多样性:避免模型过拟合,让输出更通用。
  • 格式化数据:自动把数据整理成你需要的格式(比如ChatML)。
示例提示
    1. 基于现有数据集生成对话
    根据我提供的对话示例,生成更多符合同样结构和主题的对话。
    
    1. 无数据集时生成数据
    生成10条关于可口可乐的产品评论,分为正面、负面和中立。
    
    1. 格式化无结构数据
    将我的数据集整理成ChatML格式,用于微调。然后生成5条同主题的合成数据。
    
注意事项
  • 检查质量:生成的合成数据可能有噪声,建议人工检查或用脚本过滤低质量内容。
  • 保持平衡:确保数据集在主题、风格、语言等方面均衡,避免模型偏向某类数据。

第五步:特殊场景——视觉微调

如果你的目标是微调一个视觉语言模型(VLM),比如让模型分析X光片,数据集需要包含图像和文本。以下是一个医疗影像数据集(ROCO)的处理示例:

数据集示例

ROCO数据集包含X光片、CT扫描等影像,每张图片有专家写的描述:

Dataset({
    features: ['image', 'image_id', 'caption', 'cui'],
    num_rows: 1978
})

示例数据:

  • 图片:一张X光片
  • 描述:全景X光片显示右侧后上颌骨有溶骨性病变,伴有上颌窦底吸收(箭头指示)。
格式化视觉数据

视觉微调的数据格式需要包含文本指令和图像:

instruction = "你是放射科专家,准确描述这张图片的内容。"

def convert_to_conversation(sample):
    conversation = [
        {
            "role": "user",
            "content": [
                {"type": "text", "text": instruction},
                {"type": "image", "image": sample["image"]}
            ]
        },
        {
            "role": "assistant",
            "content": [
                {"type": "text", "text": sample["caption"]}
            ]
        }
    ]
    return {"messages": conversation}

# 转换数据集
converted_dataset = [convert_to_conversation(sample) for sample in dataset]

转换后的数据示例:

{
  "messages": [
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "你是放射科专家,准确描述这张图片的内容。"},
        {"type": "image", "image": "<PIL.PngImagePlugin.PngImageFile>"}
      ]
    },
    {
      "role": "assistant",
      "content": [
        {"type": "text", "text": "全景X光片显示右侧后上颌骨有溶骨性病变,伴有上颌窦底吸收(箭头指示)。"}
      ]
    }
  ]
}

常见问题解答

数据集需要多大?

至少100条数据才能看到初步效果,1000条以上会更好。数据质量比数量更重要,建议清洗数据,去掉无关或低质量内容。如果数据不够,可以用Hugging Face的通用数据集(如ShareGPT)补充,或者生成合成数据。

怎么处理多列数据?

像Titanic数据集这样有多列的数据(年龄、票价、舱位等),需要“合并”成一个提示。Unsloth的to_sharegpt函数可以自动处理:

from unsloth import to_sharegpt

dataset = to_sharegpt(
    dataset,
    merged_prompt="乘客信息:[[年龄:{age}。]][[票价:{fare}。]][[登船地:{embarked}。]]",
    output_column_name="survived"
)
想让模型学会推理怎么办?

如果目标是推理能力,答案部分需要包含 思维链(chain-of-thought) 过程,详细描述推导步骤。比如:

{
  "instruction": "计算1+1+1。",
  "output": "让我们一步步计算:1+1=2,2+1=3。所以答案是3。"
}

总结:从零到一打造你的数据集

打造一个高效的微调数据集并不复杂,关键是明确目标、选对格式、用好工具。Unsloth的聊天模板和格式化函数能大大简化流程,让你专注于数据质量和任务设计。无论是文本任务还是视觉任务,遵循这五个步骤,你就能准备好一个让模型“听话”的数据集:

    1. 明确目标和数据来源。
    1. 选择合适的格式(Alpaca、ChatML等)。
    1. 用Unsloth格式化数据集。
    1. (可选)生成合成数据增加多样性。
    1. 对于视觉任务,正确处理图像和文本。

希望这篇指南能帮你顺利迈出微调的第一步!

普通人如何抓住AI大模型的风口?

领取方式在文末

为什么要学习大模型?

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:
在这里插入图片描述

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!

最后

只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!

在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

图片

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!

01 教学内容

图片

  • 从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!

  • 大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

02适学人群

应届毕业生‌: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

image.png

vx扫描下方二维码即可
在这里插入图片描述

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!

03 入门到进阶学习路线图

大模型学习路线图,整体分为5个大的阶段:
图片

04 视频和书籍PDF合集

图片

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

图片

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)
图片

05 行业报告+白皮书合集

收集70+报告与白皮书,了解行业最新动态!
图片

06 90+份面试题/经验

AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)图片
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值