大模型学习 (Datawhale_Happy-LLM)笔记6: Encoder-only PLM

大模型学习 (Datawhale_Happy-LLM)笔记6: Encoder-only PLM

Encoder Only PLM 的产生

Google 选择了对 Transformer 中的 Encoder 层进行优化,通过将 Encoder 层进行堆叠,扩大模型参数,结合预训练任务 (MLM, Masked Language Model) 进一步推动了预训练+微调范式的发展。

BERT

  • 简述
    Encoder-only 的模型代表 BERT(Bidirectional Encoder Representations from Transformers)是由 Google 2018年基于论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》发布的预训练语言模型。从BERT 的命名上揭示了其核心架构设计与预训练机制的底层逻辑。本质是利用多层 Transformer Encoder 对文本进行双向语义建模,将输入序列转化为包含丰富上下文信息的向量表示 (Vector Representation)。

  • 架构
    BERT 模型整体主要是由 Embedding、Encoder 及 Prediction_heads 组成:

    • Tokenizer (分词器)将输入的文本分词后转换为 input_ids (与句子每个 token 对应的索引)作为 BERT model 的输入

    • Embedding(嵌入)
      input embedding = token embedding(词元) + segment embedding(段落) + position embedding(位置)

    • Encoder (编码器)
      Encoder 块中是对叠起来的 N 层 Encoder Layer,BERT 有两种规模的模型,分别是 base 版本(12层 Encoder Layer,768 的隐藏层维度,总参数量 110M),large 版本(24层 Encoder Layer,1024 的隐藏层维度,总参数量 340M)。通过Encoder 编码之后的最顶层 hidden states 最后经 过 prediction_heads 就得到了最后的类别概率,经过 Softmax 计算就可以计算出模型预测的类别。

      • 每个 Encoder 层包含两个子层:
        1. 多头自注意力子层(Multi-head Self-Attention):处理上下文关联
        2. Intermediate 子层(增强特征非线性表达) :BERT 的 Intermediate 层通过 “线性映射 + GELU 激活” 实现特征的非线性变换与维度调整,是模型捕获复杂语义的关键模块。GELU 的平滑性和自适应门控特性,使其比传统激活函数更适配 Transformer 的深层架构,这一设计在原始论文中被验证,并成为后续预训练模型的标准配置之一。BERT 原始论文《BERT: Pre-training of Deep Bidirectional Transformers》中直接采用 GELU,而该激活函数在《Gaussian Error Linear Units (GELU)》论文中被提出,实验证明其在 NLP 任务中效果优于 ReLU、Swish 等函数。GELU 的计算方式为:GELU(x)=0.5x(1+tanh(2π)(x+0.044715x3))\text{GELU(x)}=0.5x(1+tanh(\large\sqrt\frac{2}{\pi})(x+0.044715x^3))GELU(x)=0.5x(1+
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值