Dive-into-DL-TensorFlow2.0项目解析：自然语言处理中的近似训练方法-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01076/article/details/148574778

Dive-into-DL-TensorFlow2.0项目解析：自然语言处理中的近似训练方法

Dive-into-DL-TensorFlow2.0 项目地址: https://gitcode.com/gh_mirrors/di/Dive-into-DL-TensorFlow2.0

引言

在自然语言处理领域，词向量（Word Embedding）技术是构建各种NLP系统的基础。传统的跳字模型（Skip-gram）和连续词袋模型（CBOW）使用softmax函数计算条件概率时，需要对整个词典中的所有词进行计算，这在处理大规模词典时会带来巨大的计算开销。本文将深入探讨两种高效的近似训练方法：负采样（Negative Sampling）和层序softmax（Hierarchical Softmax），它们能显著降低计算复杂度，同时保持模型的表达能力。

传统方法的挑战

传统的跳字模型使用softmax函数计算给定中心词生成背景词的条件概率：

$$P(w_o \mid w_c) = \frac{\text{exp}(\boldsymbol{u}_o^\top \boldsymbol{v}c)}{ \sum{i \in \mathcal{V}} \text{exp}(\boldsymbol{u}_i^\top \boldsymbol{v}_c)}$$

这种方法的计算复杂度与词典大小成正比。对于包含数十万甚至上百万词的大规模词典，每次梯度计算都需要遍历整个词典，这在实践中是不可行的。

负采样（Negative Sampling）

基本思想

负采样是一种简化softmax计算的有效方法。其核心思想是将多分类问题转化为二分类问题：给定一对词（中心词和背景词），判断它们是否确实出现在同一个上下文中（正样本），还是随机组合的（负样本）。

数学表达

负采样修改了目标函数，将条件概率表示为：

$$P(D=1\mid w_c, w_o) = \sigma(\boldsymbol{u}_o^\top \boldsymbol{v}_c)$$

其中σ是sigmoid函数。对于每个正样本（实际出现在上下文中的词对），我们同时采样K个负样本（噪声词），并构建新的目标函数：

$$P(w^{(t+j)} \mid w^{(t)}) = P(D=1\mid w^{(t)}, w^{(t+j)})\prod_{k=1}^K P(D=0\mid w^{(t)}, w_k)$$

优势分析

计算复杂度从O(|V|)降低到O(K)，其中K通常取5-20
保留了词向量的语义信息
特别适合处理大规模数据集

实现细节

在实际应用中，负采样通常采用以下策略：

噪声词从词汇表中按频率的3/4次方采样
常用词被采样的概率更高
可以通过调整K值平衡计算效率和模型精度

层序softmax（Hierarchical Softmax）

基本思想

层序softmax通过构建二叉树结构来组织词汇表，将平坦的softmax计算转化为沿着树路径的一系列二分类决策。每个词对应树的一个叶节点，内部节点代表分类决策。

数学表达

条件概率被重新定义为：

$$P(w_o \mid w_c) = \prod_{j=1}^{L(w_o)-1} \sigma\left( [![ n(w_o, j+1) = \text{leftChild}(n(w_o,j)) ]!] \cdot \boldsymbol{u}_{n(w_o,j)}^\top \boldsymbol{v}_c\right)$$

其中L(w)是从根节点到词w的路径长度，n(w,j)是路径上的第j个节点。

优势分析

计算复杂度从O(|V|)降低到O(log|V|)
特别适合词汇量极大的场景
可以构建平衡树或霍夫曼树进一步优化

实现细节

在实践中，层序softmax的实现需要考虑：

树的构建方式（平衡树/霍夫曼树）
路径编码的效率
节点向量的初始化

两种方法对比

| 特性 | 负采样 | 层序softmax | |------|--------|-------------| | 计算复杂度 | O(K) | O(log|V|) | | 内存占用 | 较低 | 较高（需存储树结构） | | 实现难度 | 简单 | 较复杂 | | 适用场景 | 通用 | 超大词汇表 | | 采样策略 | 需要设计 | 不需要 |