第八节课《大模型微调数据构造》

大模型微调数据构造(补充课程)_哔哩哔哩_bilibili

Tutorial/FineTune at main · Focusshang/Tutorial · GitHub

一、大模型训练数据介绍

  • 预训练:
    • 网络、论文数据,无标签数据
    • transform算法
    • base model
    • 典型:GPT
  • 监督微调
    • 对话数据:prompt和response,
    • 人工标注或者模型生成,规模小但是质量高
    • SFT Model:xtuner
  • RHF
    • 一般不涉及,人工排序、打分,数据少,质量高
    • 二分类算法
    • reward model
  • 强化学习
    • prompts:问题,模型提供输出revive model排序打分
    • 强化学习算法
    • RL model

二、微调是什么

  • 预训练:无标签、规模大、质量低、内容杂
  • 微调:规模小、质量高、面向特定任务场景,人工或模型标注的问答对

三、指令微调

  •  大模型微调fine-tuning:特定领域问题回答的不好

  • 指令微调instruction tuning:特定任务指令

 

四、微调目的

  • 预训练无法满足需求:专业问答、组织自身信息
  • prompt engineering局限性:输入过长、推理成本高、效果不理想
  • 数据安全问题:企业内部数据,敏感数据
  • 需要个性化服务:微调轻量级模型

五、微调方式

六、微调步骤☆☆☆☆

 

七、微调数据分类

八、微调数据质量

 九、微调结果评价

 十、微调实践

Tutorial/FineTune at main · Focusshang/Tutorial · GitHub

标注工具:

OpenDataLab · GitHub

OpenDataLab 引领AI大模型时代的开放数据平台

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值