BERT模型解读与简单任务实现

最新推荐文章于 2025-05-06 13:54:15 发布

原创

最新推荐文章于 2025-05-06 13:54:15 发布 · 1k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#python #人工智能

✨✨ 欢迎大家来访Srlua的博文（づ￣3￣）づ╭❤～✨✨

🌟🌟 欢迎各位亲爱的读者，感谢你们抽出宝贵的时间来阅读我的文章。

我是Srlua小谢，在这里我会分享我的知识和经验。🎥

希望在这里，我们能一起探索IT世界的奥妙，提升我们的技能。🔮

记得先点赞👍后阅读哦~ 👏👏

📘📚 所属专栏：传知代码论文复现

欢迎访问我的主页：Srlua小谢获取更多信息和资源。✨✨🌙🌙

概述

BERT的优势

1、作为一种预训练模型，在特定场景使用时不需要用大量的语料来进行训练，节约时间效率高效，泛化能力较强。
2、Bert是一种端到端（end-to-end）的模型，不需要我们调整网络结构，只需要在最后加上特定于下游任务的输出层。
3、基于Transformer，可以实现快速并行，也可以增加到非常深的深度，充分发掘DNN模型的特性，提升模型准确率。
4、和ELMO，GPT等其他预训练模型相比，BERT是一种双向的模型，结合上下文来进行训练，具有更好的性能。

BERT和传统nlp相比的特点

1.更好的语义理解能力
传统的自然语言处理工具只能从字面意义上进行文本分析，无法理解句子的含义和上下文。而BERT模型是双向的，可以同时考虑句子左右两侧的上下文信息，从而更好地理解句子的含义和语境。因此，在对话系统、文本分类等领域中BERT模型的表现更加优秀
2.更好的文本预训练能力
BERT是基于预训练的模型，使用了大型无标注语料库进行训练。由于BERT训练时使用了大量的语料库。因此具有更好的泛化能力和适应性，可以适应不同的自然语言处理任务。
3.可拓展性强
BERT采用Transformer结构，使得模型可以轻松地进行拓展。可以通过增加层数、增加训练数据等方式来提高模型的性能。因此，BERT模型在对新领域的应用中具有很大的潜力。
4.更好的效果
针对一些自然语言处理领域的任务，BERT模型的表现要优于其他传统的自然语言处理模型。例如，BERT在文本分类任务中表现出的效果比传统的卷积网络和循环神经网络要好，在当前的文本分类领域中有着广泛的应用。

BERT的应用领域

BERT作为一个预训练模型，能够通过适当的数据集进行微调，使得它能够胜任自然语言处理领域的多种任务，比如情感分析、摘要、对话等任务。

模型架构

BERT的模型架构是基于多层双向Transformer编码器。具体的，Google提供了一大一小两个BERT模型：
BERT_Small(L=12,H=768,A=12,总参数=110M)
BERT_Large(L=24,H=1024,A=16,总参数=340M)

输入输出表示

为了使BERT能够处理各种下游任务，输入表示能够明确表示单个句子和一对句子（例如，〈question，answer〉）在一个标记序列中。
BERT的输入由三部分组成：
Token Embeddings：使用具有30,000个标记词汇表的WordPiece嵌入。每个序列的第一个标记始终是一个特殊的分类标记（[CLS]）。对应于此标记的最终隐藏状态用作分类任务的聚合序列表示。
Segment Embeddings：用于区分两个句子。通过两种方式区分句子：1.用一个特殊标记（[SEP]）将它们分开。2.为每个标记添加一个学习的嵌入，指示它属于句子A还是句子B。
Position Embeddings：位置编码，transformer没有捕捉位置信息的能力，所以需要额外的位置编码，这里没有使用transformer论文中的正弦位置编码，而是采用了learned positional embeddings。
将BERT的输入表示可视化如下：

BERT预训练任务

使用两个无监督任务来预训练BERT，包括MLM和NSP。

MLM掩码语言模型

直观来看，深度双向语言模型当然比单向的从左到右或者从右到左模型更有效。但不幸的是，标准条件语言模型只能从左到右或从右到左进行训练，因为双向条件将允许每个单词在多层上下文中间接 “看到自己”。
为了训练一个深度双向表示，Google学者简单地随机掩盖一定比例的输入标记，然后预测这些被掩盖的标记，这个过程称为“掩码语言模型”（MLM），也就是类似于完形填空任务。
但这种办法存在两个问题：
1.在预训练和微调之间导致了不匹配，因为[MASK]标记在微