BERT2（Fun Facts about BERT）-And Why does BERT wwork

最新推荐文章于 2024-05-08 10:37:29 发布

原创

最新推荐文章于 2024-05-08 10:37:29 发布 · 327 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#bert #深度学习 #机器学习

本文探讨了BERT为何有效，指出其能根据上下文输出代表输入词含义的向量，还通过对蛋白质、DNA链和音乐分类实验说明其能力有待深入研究。此外，介绍了多语言BERT，它用多种语言训练，可实现零样本阅读理解和跨语言对齐，数据量对其效果关键，还能进行无监督标记级翻译。

Why does BERT work?

"为什么BERT有用？"
最常见的解释是，当输入一串文本时，每个文本都有一个对应的向量。对于这个向量，我们称之为
embedding。

每个向量都有自己所代表的东西。

它的特别之处在于，这些向量代表了输入词的含义。例如，模型输入 "台湾大学"（国立台湾大学），输出4个向量。这4个向量分别代表 "台"、"湾"、"大 "和 "学"

更具体地说，如果你把这些词所对应的向量画出来，或者计算它们之间的距离

也就是我们能通过位置关系得到词之间原本难以知道的东西（比如说）

你会发现，意思比较相似的词，它们的向量比较接近。例如，水果和草都是植物，它们的向量比较接近。但这是一个假的例子，我以后会给你看一个真正的例子。"鸟 "和 "鱼 "是动物，所以它们可能更接近。你可能会问，中文有歧义，其实不仅是中文，很多语言都有歧义，BERT可以考虑上下文，所以，同一个词，比如说 "苹果"，它的上下文和另一个 "苹果 "不同，它们的向量也不会相同。水果 "苹果 "和手机 "苹果 "都是 "苹果"，但根据上下文，它们的含义是不同的。所以，它的向量和相应的embedding会有很大不同。水果 "苹果 "可能更接近于 "草"，手机 "苹果 "可能更接近于 "电"。现在我们看一个真实的例子。假设我们现在考虑 "苹果 "这个词，我们会收集很多有 "苹果 "这个词的句子，比如 "喝苹果汁"、"苹果Macbook "等等。然后，我们把这些句子放入BERT中。

接下来，我们将计算 "苹果 "一词的相应embedding。输入 "喝苹果汁"，得到一个 "苹果 "的向量。为什么不一样呢？在Encoder中存在Self-Attention，所以根据 "苹果 "一词的不同语境，得到的向量会有所不同。接下来，我们计算这些结果之间的cosine similarity，即计算它们的相似度。

结果是这样的，这里有10个句子。

》前5个句子中的 "苹果 "代表可食用的苹果。例如，第一句是 "我今天买了苹果吃"，第二句是 "进口富士苹果平均每公斤多少钱"，第三句是 "苹果茶很难喝"，第四句是 "智利苹果的季节来了"，第五句是 "关于进口苹果的事情"，这五个句子都有 "苹果 "一词，
》后面五个句子也有 "苹果 "一词，但提到的是苹果公司的苹果。例如，"苹果即将在下个月发布新款iPhone"，"苹果获得新专利"，"我今天买了一部苹果手机"，"苹果股价下跌"，"苹果押注指纹识别
技术"，共有十个 "苹果"

计算每一对之间的相似度，得到一个10×10的矩阵。相似度越高，这个颜色就越浅。所以，自己和自己之间的相似度一定是最大的，自己和别人之间的相似度一定是更小的。
但前五个 "苹果 "和后五个 "苹果 "之间的相似度相对较低。
BERT知道，前五个 "苹果 "是指可食用的苹果，所以它们比较接近。最后五个 "苹果 "指的是苹果公司，所以它们比较接近。