文献分享: BERT——双向深度Transformers

原创

已于 2025-01-06 02:56:43 修改 · 1k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#bert #人工智能 #深度学习 #自然语言处理 #机器学习

于 2024-11-28 21:28:05 首次发布

👉前情提要：

📚相关论文：

$\text{BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding}$
- 提出了基于双向深度 $\text{Transformer}$ 的 $\text{BERT}$ 交叉编码器
- $\text{BERT}$ 的总结
$\text{ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT}$
- 提出了基于 $\text{BERT}$ 编码的后期 $\text{Token}$ 级交互模式
- $\text{ColBERTv1}$ 的总结
$\text{ColBERTv2: Effective and Efficient Retrieval via Lightweight Late Interaction}$
- 保留了 $\text{ColBERT}$ 的后期交互架构，但从训练策略 $/$ 嵌入压缩 $/$ 数据集上优化
- $\text{ColBERTv2}$ 的总结
$\text{PLAID: An Efficient Engine for Late Interaction Retrieval}$
- 在 $\text{ColBERTv2}$ 的基础上，进一步改进了检索策略
- $\text{PLAID}$ 的总结
$\text{EMVB: Efficient Multi-Vector Dense Retrieval Using Bit Vectors}$
- 在 $\text{PLAID}$ 的基础上，更进一步改进了检索策略
- $\text{EMVB}$ 的总结

文章目录

$\textbf{1. }$ 概述与综述
- $\textbf{1.1. }$ 研究背景
- $\textbf{1.2. BERT}$ 的主要贡献
$\textbf{2. BERT}$ 原理: 预训练 $\textbf{\&}$ 微调
$\textbf{4. BERT}$ 实验: 微调 $\textbf{\&}$ 消融

$\textbf{1. }$ 概述与综述

$\textbf{1.1. }$ 研究背景

1️⃣上下文无关 $\textbf{\&}$ 上下文敏感

模式含义有关模型

上下文无关表示词元 $x\xleftrightarrow{一一对应}$ 预训练向量 $f (x)$ $\text{word2vec/GloVe}$

上下文敏感表示词元 $x\xleftrightarrow[上下文c(x)]{一一对应}$ 预训练向量 $f (x, c (x))$ $\text{TagLM/CoVe/ELMo}$

2️⃣语言模型的预训练

含义：在大量未标注的文本数据上训练模型 $\xrightarrow{}$ 对语言结构 $/$ 词义 $/$ 上下文有初步的理解

方式：常见的预训练任务

方式含义示例

自回归语言模型 (从左到右)给定一部分文本时预测下一词的概率 $\text{GPT}$

完形填空( $\text{Cloze}$ ) 通过遮蔽部分输入词([MASK]标记)用于后续预测与填充 $\text{BERT}$

3️⃣预训练模型如何用于下游任务

基于特征的方法：例如 $\text{ELMo}$

原理：预训练时用 $\text{BiLSTM}$ 生成动态上下文表示 $\text{→}$ 在下游与 $\text{word2vec}$ 生成的静态特征拼接

特点：需要为每个下游任务设计专门的模型结构

微调( $\text{Fine-tuning}$ )方法：例如 $\text{GPT}$

原理：预训练阶段只添加很少特定参数 $\text{→}$ 在下游任务上对整个预训练模型进行训练

特点：为单向模型(只能考虑前文信息从而由左到右生成)

$\textbf{1.2. BERT}$ 的主要贡献

1️⃣引入掩码语言模型：

原理：预训练过程中，将部分词随机替换为<MASK>，然后预测这些被掩盖的原始词汇

优势：许模型同时融合左侧和右侧的上下文 $\text{→}$ 从而预训练深度双向的 $\text{Transformer}$

2️⃣引入下一句预测( $\text{NSP}$ )：

原理：预训练时，模型需要预测两句话是否在原始文本中相邻

优势：使 $\text{BERT}$ 能更好地理解句子间的关系(如 $\text{Q\&A}$ 间的关系)

3️⃣证明了广泛适用性：

原理： $\text{BERT}$ 预训练的深度双向表示，可以通过微调应用于各种下游任务

优势： $\text{BERT}$ 在大量句级 $/$ 词级任务性能，超过许多为特定任务专门设定的架构

模式	含义	有关模型
上下文无关表示	词元 $x\xleftrightarrow{一一对应}$ 预训练向量 $f (x)$	$\text{word2vec/GloVe}$
上下文敏感表示	词元 $x\xleftrightarrow[上下文c(x)]{一一对应}$ 预训练向量 $f (x, c (x))$	$\text{TagLM/CoVe/ELMo}$

方式	含义	示例
自回归语言模型	(从左到右)给定一部分文本时预测下一词的概率	$\text{GPT}$
完形填空( $\text{Cloze}$ )	通过遮蔽部分输入词(`[MASK]`标记)用于后续预测与填充	$\text{BERT}$

$\textbf{2. BERT}$ 原理: 预训练 $\textbf{\&}$ 微调

$\textbf{2.1. BERT}$ 的结构

1️⃣模型的两个阶段

阶段主要任务

预训练在不同任务上用无标注数据训练模型

微调用相同的预训练参数初始化 $\text{→}$ 用下游任务中的有标注数据调整所有参数 $\text{→}$ 适应特定任务

2️⃣模型的总体结构

多层双向 $\text{Transformer}$ 编码器：

特点结构意义

双向每个 $\text{Transformer}$ 自注意力同时关注左右上下文捕捉更全面的全局上下文关系

多层堆叠很多层的 $\text{Transformer}$ 编码层捕捉更深层次的特诊和语义

模型参数：

参数含义 $\text{BERT}_{\text{BASE}}$ $\text{BERT}_{\text{LARGE}}$

$L$ $\text{Transformer}$ 编码器的数量(即竖直上的层数) $12$ $24$

$H$ 每层 $\text{Transformer}$ 隐藏状态 $/$ 词嵌入的维度 $768$ $1024$

$A$ 每个 $\text{Transformer}$ 自注意力机制的头数 $12$ $16$

3️⃣模型的输入表示

基本概念：

结构含义

词元 $\text{(Token)}$ $\text{BERT}$ 处理的最小单元，为 $\text{WordPiece}$ 分词得到的词 $/$ 子词 $\text{+}$ 特殊标记

句子 $\text{(Senetence)}$ 任意长度的连续文本片段，不一定要有语言学意义

序列 $\text{(Sequence)}$ 输入到 $\text{BERT}$

阶段	主要任务
预训练	在不同任务上用无标注数据训练模型
微调	用相同的预训练参数初始化 $\text{→}$ 用下游任务中的有标注数据调整所有参数 $\text{→}$ 适应特定任务

特点	结构	意义
双向	每个 $\text{Transformer}$ 自注意力同时关注左右上下文	捕捉更全面的全局上下文关系
多层	堆叠很多层的 $\text{Transformer}$ 编码层	捕捉更深层次的特诊和语义

参数	含义	$\text{BERT}_{\text{BASE}}$	$\text{BERT}_{\text{LARGE}}$
$L$	$\text{Transformer}$ 编码器的数量(即竖直上的层数)	$12$	$24$
$H$	每层 $\text{Transformer}$ 隐藏状态 $/$ 词嵌入的维度	$768$	$1024$
$A$	每个 $\text{Transformer}$ 自注意力机制的头数	$12$	$16$

结构	含义
词元 $\text{(Token)}$	$\text{BERT}$ 处理的最小单元，为 $\text{WordPiece}$ 分词得到的词 $/$ 子词 $\text{+}$ 特殊标记
句子 $\text{(Senetence)}$	任意长度的连续文本片段，不一定要有语言学意义
序列 $\text{(Sequence)}$	输入到 $\text{BERT}$