BERT(Bidirectional Encoder Representations from Transformers)是由Google于2018年提出的一种基于Transformer架构的预训练语言模型,属于大型语言模型(LLM)的一种重要类型。其核心特点和技术定位如下:
1. 核心架构
- Encoder-Only结构:BERT仅使用Transformer的编码器(Encoder),通过多层堆叠捕捉文本的双向上下文语义信息。
- 双向上下文建模:与单向模型(如GPT)不同,BERT在预训练中同时利用目标词左右两侧的上下文进行预测,显著提升语义理解能力。
2. 预训练任务
- 掩码语言模型(MLM):随机遮盖输入文本中15%的词汇,训练模型根据上下文预测被遮盖的词。
- 下一句预测(NSP):判断两个句子是否连续,增强模型对句子间关系的理解。
3. 技术定位
- 任务类型:专注自然语言理解(NLU),如文本分类、情感分析、命名实体识别、问答系统等。
- 生成能力局限:因缺乏解码器(Decoder),BERT本身不支持文本生成任务(如对话生成、文本续写)。
- 微调模式:通过预训练获得通用语言表示后,可在下游任务中添加轻量级输出层进行微调。
4. 在LLM分类中的位置
类别 | 代表模型 | 特点 | 典型任务 |
---|---|---|---|
自编码模型(Encoder) | BERT | 双向上下文理解 | 文本分类、实体识别 |
自回归模型(Decoder) | GPT | 单向文本生成 | 文本生成、机器翻译 |
序列到序列(Encoder-Decoder) | T5、BART | 理解+生成结合 | 摘要生成、翻译 |
5. 影响与局限性
- 突破性贡献:刷新了11项NLP任务的最优性能,推动预训练+微调范式普及。
- 局限:
- 预训练计算成本高;
- 无法直接生成文本;
- 输入长度受限于Transformer架构。
总结
BERT是一种专注于语义理解的LLM,通过双向Transformer编码器预训练获得上下文感知的文本表示,擅长NLU任务但无生成能力。它奠定了现代LLM的基础范式,与GPT等生成模型形成互补。