【word2vec】层次Softmax（Hierarchical Softmax）

彬彬侠

于 2025-02-17 17:36:06 发布

阅读量1k

点赞数 16

分类专栏：自然语言处理基础文章标签： word2vec 层次Softmax NLP 自然语言处理

本文链接：https://blog.youkuaiyun.com/u013172930/article/details/145688005

版权

69 篇文章

订阅专栏

层次Softmax（Hierarchical Softmax） 是一种优化 softmax 计算的方法，旨在加速大规模词汇表的计算过程。

在传统的 softmax 函数中，我们计算目标词与所有词汇之间的概率分布，具体公式如下：

$P(w_t | C) = \frac{e^{v_{w_t}^T v_{w_c}}}{\sum_{w'} e^{v_{w'}^T v_{w_c}}}$

其中：

这种计算方法需要遍历整个词汇表，计算每个词的概率，这对于大型词汇表非常低效。因此，层次Softmax通过将词汇表构造成树形结构，从而减少了计算量，特别是在计算时只需要经过树的部分路径，而不是整个词汇表。

层次Softmax通过将词汇表中的所有词汇表示为一个二叉树（或多叉树）来简化计算。树中的每个叶子节点对应一个词汇，树的非叶子节点则代表决策路径。通过这种方式，计算概率不再是对整个词汇表做计算，而是通过树的路径逐步进行决策，从根节点到叶节点的路径包含了从目标词到上下文词的概率信息。

树的构建：层次Softmax使用 霍夫曼编码（Huffman coding） 构建一个二叉树。在霍夫曼树中，频率较高的词会被放在离根节点较近的位置，而频率较低的词会被放在离根节点较远的位置。
- 每个词是树的叶节点。
- 内部节点则表示决策，决定了目标词是否属于某个分支。
路径表示：为了计算目标词与上下文词的相似度，我们沿着霍夫曼树的路径，从根节点开始，逐步经过一些二叉决策节点，最终到达目标词对应的叶节点。每个决策节点有两个分支，分别代表选择“左”还是“右”。
预测上下文词：在层次Softmax中，我们不再计算整个词汇表的概率，而是通过路径的概率来进行预测。每个路径上的节点都代表一次二分类决策，目标是最大化路径上每个节点的概率。

在层次Softmax中，目标是计算路径的概率，假设我们从根节点到叶节点的路径上有多个节点，每个节点的决策为二分类问题，模型的目标是最大化路径上每个节点的概率。

具体来说，对于目标词 $w_t$ ，路径 $P$ 到达目标词，我们的目标是最大化：

$P(w_t | C) = \prod_{k=1}^{L} \sigma(v_{w_t}^T v_{n_k})$

其中：

每一个路径的概率通过 sigmoid 函数计算：

$\sigma(x) = \frac{1}{1 + e^{-x}}$

层次Softmax的损失函数是基于路径上所有节点的概率进行计算的，即最大化路径上每个节点的 log-sigmoid 损失：

$\mathcal{L} = - \log \prod_{k=1}^{L} \sigma(v_{w_t}^T v_{n_k})$

可以进一步展开为：

$\mathcal{L} = - \sum_{k=1}^{L} \log \sigma(v_{w_t}^T v_{n_k})$

通过反向传播优化模型，使得目标词与上下文词之间的路径概率最大化。

计算效率高：与传统的 softmax 方法相比，层次Softmax显著减少了每次训练中需要计算的词汇数目。通过将词汇表构建成树形结构，模型只需要计算从根节点到目标词的路径上的节点，而不是整个词汇表。这使得计算量大大减少，尤其是在词汇表非常大的时候。
适用于大规模词汇表：层次Softmax特别适用于大规模词汇表的情况，它能够有效处理具有百万级甚至亿级词汇表的任务，避免了计算整个词汇表概率的计算瓶颈。
节省内存：由于每个词只需要保存树中的路径信息，层次Softmax相较于传统的 softmax 节省了大量内存空间。
霍夫曼编码优化：霍夫曼编码根据词的频率动态调整树的结构，频繁出现的词会被分配较短的路径，从而进一步提高了计算效率。

训练复杂度较高：虽然层次Softmax减少了每次计算的词汇数，但构建霍夫曼树的过程比较复杂，尤其是在训练过程中。需要不断构建树并更新路径信息，因此在某些应用中可能会增加一定的复杂度。
适用于固定词汇表：层次Softmax依赖于固定的霍夫曼树结构，对于动态词汇表（比如增加新词）而言，需要重新构建树，这可能带来额外的计算开销。
路径不一定表示语义：霍夫曼树虽然是基于词频来构建的，但路径本身并不一定完全代表词语的语义关系。对于一些语义相似的词，可能被分配到树中的不同分支上。