BERT(Bidirectional Encoder Representations from Transformers)

BERT(Bidirectional Encoder Representations from Transformers)是由Google于2018年提出的一种基于Transformer架构的预训练语言模型,属于大型语言模型(LLM)的一种重要类型。其核心特点和技术定位如下:


1. 核心架构

  • Encoder-Only结构:BERT仅使用Transformer的编码器(Encoder),通过多层堆叠捕捉文本的双向上下文语义信息。
  • 双向上下文建模:与单向模型(如GPT)不同,BERT在预训练中同时利用目标词左右两侧的上下文进行预测,显著提升语义理解能力。

2. 预训练任务

  • 掩码语言模型(MLM):随机遮盖输入文本中15%的词汇,训练模型根据上下文预测被遮盖的词。
  • 下一句预测(NSP):判断两个句子是否连续,增强模型对句子间关系的理解。

3. 技术定位

  • 任务类型:专注自然语言理解(NLU),如文本分类、情感分析、命名实体识别、问答系统等。
  • 生成能力局限:因缺乏解码器(Decoder),BERT本身不支持文本生成任务(如对话生成、文本续写)。
  • 微调模式:通过预训练获得通用语言表示后,可在下游任务中添加轻量级输出层进行微调。

4. 在LLM分类中的位置

类别代表模型特点典型任务
自编码模型(Encoder)BERT双向上下文理解文本分类、实体识别
自回归模型(Decoder)GPT单向文本生成文本生成、机器翻译
序列到序列(Encoder-Decoder)T5、BART理解+生成结合摘要生成、翻译

5. 影响与局限性

  • 突破性贡献:刷新了11项NLP任务的最优性能,推动预训练+微调范式普及。
  • 局限
    • 预训练计算成本高;
    • 无法直接生成文本;
    • 输入长度受限于Transformer架构。

总结

BERT是一种专注于语义理解的LLM,通过双向Transformer编码器预训练获得上下文感知的文本表示,擅长NLU任务但无生成能力。它奠定了现代LLM的基础范式,与GPT等生成模型形成互补。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值