步骤
- Self-Supervised Pre-Training,简称SPT
- Supervised Fine-Tuning,简称SFT
- Learning from Human Feedback,简称LfHF
Self-Supervised Pre-Training
自监督预训练(Self-Supervised Pre-Training,简称SPT)是一种机器学习技术,其中模型从输入的其他部分学习预测其输入的部分,而不使用显式标签。这种方法特别适用于利用未标记数据,因为未标记数据比标记数据更为丰富。以下是该概念的总结:
目标:
- 在大量未标记数据上训练模型,使其学习到有用的表征,这些表征可以后来用于特定任务的微调。
过程:
- 数据增强: 对输入数据进行各种方式的增强(例如,图像旋转、文本遮罩),以创建一种监督形式。
- 预文本任务: 设计一个代理任务,模型必须预测增强数据的某些方面。例如,给定一个带有遮罩词的句子,任务可能是预测遮罩词。
- 对比学习: 模型也可能被训练以区分相似和不相似的样本,推动它学习有意义的表征。
- 模型训练: 使用损失函数测量其解决任务的能力,在预文本任务上训练模型。
- 表征提取: 预训练后,使用模型学到的表征用于下游任务。
优点:
- 利用未标记数据,这通常比标记数据更容易获取。
- 可以导致更强大、

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



