BERT、T5、ViT 和 GPT-3 架构概述
1. BERT(Bidirectional Encoder Representations from Transformers)
-
架构特点
- 基于 Transformer 编码器:BERT 使用多层双向 Transformer 编码器,能够同时捕捉输入序列中每个词的左右上下文信息。
- 预训练任务:
- 掩码语言模型(Masked Language Model, MLM):随机遮蔽输入序列中的部分词,模型需预测被遮蔽的词。
- 下一句预测(Next Sentence Prediction, NSP):预测两个句子是否连续。
- 应用场景:文本分类、命名实体识别、问答系统等。
- 优势:
- 双向上下文理解能力强,适合需要深入理解语义的任务。
- 预训练模型可微调以适应多种下游任务。
代表性应用
- 自然语言理解:
- 文本分类:情感分析、垃圾邮件检测、新闻分类等。
- 命名实体识别(NER):从文


最低0.47元/天 解锁文章
816






