预训练微调类型分类

预训练与微调

1. 预训练

目标:通过大规模数据训练模型,学习通用表示能力。
方法
• 自监督学习(如BERT、GPT)
• 多模态预训练(如CLIP、DALL·E)


2. 微调

微调是在预训练模型基础上,针对特定任务或领域进行优化。主要分为以下几类:

2.1 多模态模型微调

目标:适配多模态任务(如图文生成、视觉问答)。
方法
• 跨模态对齐微调
• 多模态联合训练

2.2 文本模型微调

目标:优化文本相关任务(如文本生成、分类)。
方法
• 监督微调
• 无监督/自监督微调

2.3 监督微调

目标:使用标注数据优化特定任务。
细分
指令微调:通过指令-输出对增强泛化能力。
对话微调:优化对话生成和上下文理解。
领域适配:将模型适配到特定领域(如医疗、法律)。
文本分类:优化文本分类任务(如情感分析、主题分类)。

2.4 无监督/自监督微调

目标:利用未标注数据提升模型性能。
方法
• 掩码语言模型(如BERT)
• 对比学习(如SimCSE)

2.5 强化学习微调

目标:通过奖励机制优化模型输出。
方法
• 人类反馈强化学习(RLHF)
• 直接偏好优化(DPO)

2.6 特殊的微调

目标:针对特定需求或场景进行优化。
方法
• 知识蒸馏:将大模型知识迁移到小模型。
• 增量学习:逐步适配新任务或数据。


3. 知识终端

目标:将外部知识整合到模型中。
方法
• 知识图谱嵌入
• 检索增强生成(RAG)


思维导图结构示例

预训练
├── 多模态模型微调
│   ├── 跨模态对齐微调
│   └── 多模态联合训练
├── 文本模型微调
│   ├── 监督微调
│   │   ├── 指令微调
│   │   ├── 对话微调
│   │   ├── 领域适配
│   │   └── 文本分类
│   ├── 无监督/自监督微调
│   │   ├── 掩码语言模型
│   │   └── 对比学习
│   └── 强化学习微调
│       ├── 人类反馈强化学习(RLHF)
│       └── 直接偏好优化(DPO)
├── 特殊的微调
│   ├── 知识蒸馏
│   └── 增量学习
└── 知识终端
    ├── 知识图谱嵌入
    └── 检索增强生成(RAG)

在这里插入图片描述

### Transformer 架构的预训练微调 #### 预训练方法 Transformer架构中的预训练通常涉及大规模无标注语料库的学习过程。此阶段的目标是在未标记的数据集上训练模型以获取通用的语言表示能力。常见的预训练任务包括掩码语言建模(Masked Language Modeling, MLM),即随机遮蔽输入序列的一部分单词,让模型预测这些被遮盖掉的内容;以及下一句预测(Next Sentence Prediction, NSP),用于理解两个句子间的关联性[^2]。 对于特定类型的Transformer变体如BERT (Bidirectional Encoder Representations from Transformers),会利用上述两种策略来进行有效的预训练。这种做法使得模型能够在后续的任务中更好地泛化到未曾见过的新样本上去[^3]。 ```python from transformers import BertTokenizer, BertForPreTraining import torch tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') model = BertForPreTraining.from_pretrained('bert-base-uncased') input_ids = tokenizer("Here is some text to encode", return_tensors='pt')['input_ids'] outputs = model(input_ids) prediction_logits, seq_relationship_logits = outputs.prediction_logits, outputs.seq_relationship_logits ``` #### 微调方法 当完成预训练之后,为了适应具体的下游任务,则需对已有的参数进行调整——这就是所谓的“微调”。在这个过程中,开发者可以根据具体应用场景的需求,在相对较小规模但带有标签的信息集合上来继续优化网络权重。例如,在情感分类或者命名实体识别这样的监督学习环境中,只需少量迭代即可获得不错的效果改进[^4]。 值得注意的是,由于经过充分预训练后的Transformer已经具备了一定程度上的特征提取能力和上下文感知力,因此即使只用有限数量的例子也能快速收敛至较优解附近。这不仅提高了开发效率,同时也降低了数据收集成本和技术门槛。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

司南锤

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值