大模型学习（Datawhale_Happy-LLM）笔记6: Encoder-only PLM

最新推荐文章于 2025-12-02 21:35:49 发布

原创

最新推荐文章于 2025-12-02 21:35:49 发布 · 1.1k 阅读

·

19

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#学习 #笔记 #语言模型 #transformer

大模型学习（Datawhale_Happy-LLM）笔记6: Encoder-only PLM

Encoder Only PLM 的产生

Google 选择了对 Transformer 中的 Encoder 层进行优化，通过将 Encoder 层进行堆叠，扩大模型参数，结合预训练任务 (MLM, Masked Language Model) 进一步推动了预训练+微调范式的发展。

BERT

简述
Encoder-only 的模型代表 BERT（Bidirectional Encoder Representations from Transformers）是由 Google 2018年基于论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》发布的预训练语言模型。从BERT 的命名上揭示了其核心架构设计与预训练机制的底层逻辑。本质是利用多层 Transformer Encoder 对文本进行双向语义建模，将输入序列转化为包含丰富上下文信息的向量表示 (Vector Representation)。
架构
BERT 模型整体主要是由 Embedding、Encoder 及 Prediction_heads 组成：
- Tokenizer （分词器）将输入的文本分词后转换为 input_ids （与句子每个 token 对应的索引）作为 BERT model 的输入
- Embedding（嵌入）
  input embedding = token embedding（词元） + segment embedding（段落） + position embedding（位置）
- Encoder （编码器）
  Encoder 块中是对叠起来的 N 层 Encoder Layer，BERT 有两种规模的模型，分别是 base 版本（12层 Encoder Layer，768 的隐藏层维度，总参数量 110M），large 版本（24层 Encoder Layer，1024 的隐藏层维度，总参数量 340M）。通过Encoder 编码之后的最顶层 hidden states 最后经过 prediction_heads 就得到了最后的类别概率，经过 Softmax 计算就可以计算出模型预测的类别。
  - 每个 Encoder 层包含两个子层：
    1. 多头自注意力子层（Multi-head Self-Attention）：处理上下文关联
    2. Intermediate 子层（增强特征非线性表达）：BERT 的 Intermediate 层通过 “线性映射 + GELU 激活” 实现特征的非线性变换与维度调整，是模型捕获复杂语义的关键模块。GELU 的平滑性和自适应门控特性，使其比传统激活函数更适配 Transformer 的深层架构，这一设计在原始论文中被验证，并成为后续预训练模型的标准配置之一。BERT 原始论文《BERT: Pre-training of Deep Bidirectional Transformers》中直接采用 GELU，而该激活函数在《Gaussian Error Linear Units (GELU)》论文中被提出，实验证明其在 NLP 任务中效果优于 ReLU、Swish 等函数。GELU 的计算方式为： $GELU(x)=0.5x(1+tanh(2π)(x+0.044715x3))\text{GELU(x)}=0.5x(1+tanh(\large\sqrt\frac{2}{\pi})(x+0.044715x^3))$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。