NLP《词汇表示方法（七）BERT》

最新推荐文章于 2024-10-24 21:13:35 发布

原创

最新推荐文章于 2024-10-24 21:13:35 发布 · 787 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#Bert

本文深入探讨BERT模型，解释其基于Transformer的Encoder结构如何解决多义词问题，并能进行并行化计算。BERT通过两种训练方法——词汇预测和句子逻辑判断，学习上下文信息。在问答系统、情感分析、词性标注和逻辑判断等任务中展现出广泛应用。

今天学习超级火热的Bert模型来进行词向量的学习。
BERT（Bidirectional Encoder Representations from Transformers）是基于Transfomer机制的，大有替换Word2Vec的趋势。

原始词向量，诸如Word2Vec和GloVe的表示方法是无法解决多义词问题，基ELMO（基于RNN）可以解决多义词问题，但是无法并行化，深度也不会很深（无法提取更深层特征）。

一：Bert结构
Bert是利用Transformer模型的Encoder部分进行词向量训练的，至于有什么优点，那就是都继承于Transformer了。这也是我上一篇博文学习Transformer的原因，因为如果了解了Transformer的结构和计算过程，Bert也就自然不再话下了。

因此我就不多余画它的结构了，要是不熟悉的可以去看看Transformer模型的Encoder部分的结构。

1：可以并行化，放到GPU加速。
2：有attention机制在关注全局信息的同事，也能关注到有用关键部分信息
3：没有RNN结构的梯度消失，因此可以做到长期依赖。
4：可以设计更高层结构抽取深层特征，RNN顶多就几层。
5：跟ELMO一样，词向量也是包含有上下文信息的，能解决多义词问题。
在这里插入图片描述