一、背景信息:
GLM是2020-2021年由智谱AI研究并发布的预训练语言模型。
GLM是一种基于自回归空白填充
的通用预训练语言模型。
GLM 通过添加二维位置编码
和允许任意顺序预测空白区域
,改进了空白填充预训练
,在NLU任务上超越了 BERT 和 T5。
GLM的网络架构使用的是多层Transformer Decoder改的结构。
二、整体结构:
- Pre-Norm,前归一化:将Layer Normalization步骤放置在各模块之前进行。
- DeepNorm, 归一化函数的调整:GLM的Layer Normalization使用了DeepNorm方式。
- RoPE, 位置编码的调整: GLM不再位置向量合成输入向量,而是在每次Attention时进行RoPE的位置向量编码。
- GLU, FFN层激活函数调整:FFN使用具有GeLU激活的GLU作为激活函数。
三、GLM训练
GLM是一种基于自回归空白填充
的通用预训练语言模型。
(1)自回归空白填充
自回归空白填充目标
-
<