【注意力机制学习-01】-什么是语言模型中的注意力？-优快云博客

本文链接：https://blog.youkuaiyun.com/wangshangshang09/article/details/146970227

【注意力机制学习-01】-什么是语言模型中的注意力？

语言模型的一个重大障碍是当一个单词可以用于两种不同的上下文时。当遇到这个问题时，模型需要利用句子的上下文来判断该单词应采用哪种含义。而这正是自注意力（self-attention）模型所做的事情。

在前几章中，你学习了词和句子的嵌入（embedding）链接，以及它们之间的相似性链接。简而言之，词嵌入（word embedding） 是一种将单词与数字列表（向量）关联的方式，使得相似的单词对应的向量在空间上更接近，而不相似的单词对应的向量距离较远。句子嵌入（sentence embedding） 的原理类似，但它是为每个句子分配一个向量。相似性（similarity） 是一种衡量两个单词（或句子）相似程度的方法，相似的单词（或句子）会被赋予较大的数值，而不同的则对应较小的数值。

然而，词嵌入（word embeddings） 存在一个巨大的弱点：多义词。如果一个词嵌入模型为“bank”（银行/河岸）这样的单词分配了一个向量，那么无论“bank”是指金融机构还是河岸，它都会使用相同的向量。那么，如果你想在不同的上下文中使用这个单词，该怎么办呢？

这正是注意力机制（attention） 发挥作用的地方。自注意力（self-attention） 最早在开创性论文 Attention Is All You Need 中被提出，该论文的多位作者之一正是 Cohere 的联合创始人 Aidan Gomez。注意力机制是一种非常巧妙的方法，能够根据上下文区分单词的不同含义，从而将普通的词嵌入转换为“上下文相关的词嵌入”（contextualized word embeddings）。

同一个单词，不同的含义

为了理解注意力机制（attention），让我们来看以下两个句子：

句子 1：The bank of the river.（河岸）
句子 2：Money in the bank.（银行）

在这两个句子中，“bank” 这个单词有两种不同的含义：

在 句子 1 中，它指的是河岸。
在 句子 2 中，它指的是 金融机构（银行）。

传统的词嵌入（word embeddings）会为 “bank” 分配相同的向量，无法区分它在不同上下文中的意义。而自注意力（self-attention） 机制能够理解句子结构，区分 “bank” 在不同场景下的含义，从而生成上下文相关的词嵌入（contextualized word embeddings）。

在这里插入图片描述

计算机如何知道第一个句子中的“bank”指的是自然环境，而第二个句子中的“bank”指的是金融环境呢？

其实，我们可以先问一个更简单的问题：人类是如何判断的？

你之所以能区分这两个不同的意思，可能是通过观察“bank”周围的单词。

在 第一个句子 中，“river” 暗示了“bank”指的是河岸（自然环境）。
在 第二个句子 中，“money” 让我们知道“bank”指的是银行（金融环境）。

总结：我们需要一种方法，让计算机能够利用句子中的其他单词来理解“bank”在不同语境下的含义。这正是注意力机制（attention） 的核心思想——它可以让模型关注句子中最相关的单词，以正确地理解单词的上下文。

这正是词嵌入（word embeddings） 发挥作用的地方。正如你在前面的章节中学到的，词嵌入是一种为每个单词分配向量（即一组数字）的方式。我喜欢从几何角度来想象这个过程。

想象一下，“bank”、“river” 和 “money” 都被钉在一块软木板上。而且，这块软木板包含了所有的单词，并且相似的单词（如“apple”和“pear”）会彼此靠近。

在这个“词的空间”中，“bank” 和 “river” 以及 “bank” 和 “money” 并不完全靠近。但我们可以做一个调整：

把“bank”向“river”移动一些，称之为 “bank₁”。
再把“bank”向“money”移动一些，称之为 “bank₂”。

现在，我们有了两个稍微不同的“bank”，并可以用它们来重写句子：

修改后的句子 1：The bank₁ of the river.
修改后的句子 2：Money in the bank₂.

通过这种方式，我们为同一个单词在不同语境下创建了不同的嵌入，从而让模型能够更好地理解“bank”在不同上下文中的具体含义。这就是上下文相关词嵌入（contextualized word embeddings） 的概念，而自注意力（self-attention） 机制正是用于实现这一点的关键方法！

在这两个修改后的句子中，计算机现在对**“bank”**的上下文有了更多的理解，因为这个单词已经被拆分成了两个不同的版本：

bank₁（更接近“river”的定义）
bank₂（更接近“money”的定义）

这就是注意力机制（attention mechanisms） 的基本思想。然而，你可能还有许多疑问，例如：

1️⃣ “移动一个单词靠近另一个单词”是什么意思？

这指的是调整词嵌入的向量，让它在语义空间中更靠近与其相关的单词。

2️⃣ 为什么忽略了句子中的其他单词？

我们如何知道是“river”和“money”决定了“bank”的含义，而不是“the”、“in”或“of”？
人类可以自然地区分哪些词是重要的，但计算机一开始并不知道。

3️⃣ 计算机只能处理数字，如何用数字表达这些方法？

词嵌入如何转换成数值？
注意力机制如何通过数学计算来判断哪些词提供了更多上下文信息？

别担心！这些问题（甚至更多）将在接下来的部分中得到解答 🚀

在“软木板”上移动单词

首先，让我们深入理解**“将一个单词移动到另一个单词更近”**是什么意思。

一个直观的理解方式是——对两个单词的词嵌入进行加权平均。

比如，如果我们想把“bank”向“river”移动 10%，可以这样表示：
$\text{Bank₁} = 0.9 \times \text{Bank} + 0.1 \times \text{River}$
也就是说，Bank₁ 90% 仍然是“bank”，但 10% 变成了“river”。