从词到句：理解序列编码中嵌入层与RNN的必要性

最新推荐文章于 2025-11-23 19:13:18 发布

原创最新推荐文章于 2025-11-23 19:13:18 发布 · 302 阅读

CC 4.0 BY-SA版权

本文为博主原创文章，未经博主允许禁止转载。如有问题，欢迎指正。

文章标签：

18 篇文章

订阅专栏

在自然语言处理中，如何让机器理解一个句子的完整含义，而不仅仅是识别其中的单词，是一个核心问题。一个常见的技术路径是“序列编码”，它包含两个关键阶段：首先使用嵌入层理解词汇，然后使用循环神经网络（RNN/LSTM/GRU） 理解句子结构。本文将阐述为什么这两个阶段缺一不可。

嵌入层的目标是将离散的单词转换为计算机可以处理的数值形式，即密集向量。

它做了什么？ 它将每个单词映射到一个低维空间中的点。在这个空间里，语义相近的单词（如“猫”和“狗”）距离较近，语义无关的单词（如“猫”和“电脑”）距离较远。
它的局限性是什么？ 嵌入层处理的是独立的单词。它为我们提供了每个词的语义信息，但完全没有考虑这些词在句子中的顺序和上下文关系。

如果只使用嵌入层，我们通常会将句子中所有词的向量进行简单聚合（例如求平均）。这种方法会丢失关键的结构信息。

循环神经网络（RNN）及其改进版本LSTM和GRU的引入，正是为了解决嵌入层无法捕捉序列信息的问题。

它做了什么？ RNN单元具有“记忆”功能。它逐个处理句子中的单词，在处理每个新词时，都会结合当前词的嵌入向量和来自上一个词的“记忆状态”，并生成一个新的记忆状态传递给下一个词。
为什么这是必要的？ 这种链式处理机制使得RNN能够捕捉单词之间的依赖关系和句子的整体结构。句子的含义不仅取决于包含哪些词，更取决于这些词的排列顺序。

让我们通过一个具体例子来展示这两个阶段的协作如何让机器理解句子的真实含义。

假设我们有句子A：“我爱你”和句子B：“你爱我”。

嵌入层工作（独立理解每个词）：
- 模型会查找每个词的向量表示：
  - 我 -> [0.1, 0.2, 0.3]
  - 爱 -> [0.4, 0.5, 0.6]
  - 你 -> [0.7, 0.8, 0.9]
- 如果仅停留在这一步，对两个句子做平均操作，得到的向量会非常相似，无法区分谁爱谁。
RNN层工作（理解序列关系）：
- 处理“我爱你”：
  - 步骤1：RNN读取“我”的向量，生成初始隐藏状态 h1，其中包含“主语是我”的信息。
  - 步骤2：RNN读取“爱”的向量，并结合 h1，生成 h2。此时状态知道“我正在执行爱的动作”。
  - 步骤3：RNN读取“你”的向量，并结合 h2，生成最终状态 h3。h3 是一个浓缩了“主语-我，谓语-爱，宾语-你”这个完整逻辑的上下文向量。
- 处理“你爱我”：
  - 这个过程会完全不同。RNN从“你”开始，最终状态会浓缩“主语-你，谓语-爱，宾语-我”的逻辑。
- 结果：两个句子经过RNN处理后的最终上下文向量 h3 会有显著差异，准确反映了句子不同的含义。