论文阅读——BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

最新推荐文章于 2025-03-17 12:00:00 发布

Trigger_2017

最新推荐文章于 2025-03-17 12:00:00 发布

阅读量2.4k

点赞数

文章标签：自然语言处理 bert 深度学习

本文链接：https://blog.youkuaiyun.com/qq_43658933/article/details/123545761

版权

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

作者引入了一种新的语言表示模型BERT，只需增加一个输出层，就可以对预先训练的BERT模型进行微调，无需对特定于任务的架构进行重大修改。

语言模型预训练已经证明对很多下游NLP任务有帮助，比如：自然语言推理，释义（通过整体分析来预测句子之间的关系）；命名实体识别，问答（模型需要在词牌（token）级别产生细粒度输出）

目前有两种应用预训练语言表示的策略：

这两种方法在训练前具有相同的目标函数，即使用单向语言模型学习一般语言表征。

在本文中，我们改进了基于微调的方法，BERT通过使用“掩码语言模型”（MLM）预训练目标减轻了前面提到的单向性约束，不同于从左到右的语言模型预训练MLM目标能够让表示融合左侧和右侧的上下文，这使我们能预训练一个深度双向Transformer。

本文的贡献：

word representation

预训练词嵌入 > 从头开始学习的嵌入

为了预训练词嵌入向量，使用了从左到右语言建模目标 + 在左右上下文中区分正确单词和错误单词的目标
coarser granularities（更粗粒度）

为了训练句子表示，之前的工作使用目标对候选的下一个句子进行排序，给出一个之前句子的表示，从左到右生成下一个句子单词。
traditional word embedding

从一个left-to-right和一个
right-to-left语言模型中抽取上下文敏感特征

每个词牌（token）的上下文表示是从左到右和从右到左表示的串联。

LSTMs与ELMo类似，它们的模型都是基于特征的，都不是深度双向的