AI:大语言模型训练

步骤

  1. Self-Supervised Pre-Training,简称SPT
  2. Supervised Fine-Tuning,简称SFT
  3. Learning from Human Feedback,简称LfHF

Self-Supervised Pre-Training

自监督预训练(Self-Supervised Pre-Training,简称SPT)是一种机器学习技术,其中模型从输入的其他部分学习预测其输入的部分,而不使用显式标签。这种方法特别适用于利用未标记数据,因为未标记数据比标记数据更为丰富。以下是该概念的总结:

目标:

  • 在大量未标记数据上训练模型,使其学习到有用的表征,这些表征可以后来用于特定任务的微调。

过程:

  1. 数据增强: 对输入数据进行各种方式的增强(例如,图像旋转、文本遮罩),以创建一种监督形式。
  2. 预文本任务: 设计一个代理任务,模型必须预测增强数据的某些方面。例如,给定一个带有遮罩词的句子,任务可能是预测遮罩词。
  3. 对比学习: 模型也可能被训练以区分相似和不相似的样本,推动它学习有意义的表征。
  4. 模型训练: 使用损失函数测量其解决任务的能力,在预文本任务上训练模型。
  5. 表征提取: 预训练后,使用模型学到的表征用于下游任务。

优点:

  • 利用未标记数据,这通常比标记数据更容易获取。
  • 可以导致更强大、
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Thomas Kant

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值