GloVe（Global Vectors for Word Representation）模型详解

GloVe模型原理与应用解析

最新推荐文章于 2025-11-24 21:26:24 发布

原创最新推荐文章于 2025-11-24 21:26:24 发布 · 576 阅读

CC 4.0 BY-SA版权

文章标签：

10 篇文章

订阅专栏

GloVe 通过全局词共现统计学习词向量，核心假设是：词的意义可通过其上下文词的共现信息捕捉。其实现分为三步：

构建共现矩阵：统计词-词在固定窗口内的共现次数，形成矩阵 $X$ （ $X_{ij}$ 表示词 $i$ 与词 $j$ 的共现次数）。
定义目标函数：最小化词向量内积与共现次数对数的差距：

$\sum_{i,j=1}^V f(X_{ij}) \left( \mathbf{w}_i^\top \tilde{\mathbf{w}}_j + b_i + \tilde{b}_j - \log X_{ij} \right)^2$
- $V$ ：词汇表大小；
- $w_i$ ：词 i 作为中心词的向量；
- $wj~\tilde{w_j}$ ：词 j 作为上下文词的向量；
- $bi,b~jb_i, \tilde{b}_j$ ：偏置项；
- $f(X_{ij})$ ：权重函数，常用形式：
  $\begin{cases} \left( \dfrac{x}{x_{\text{max}}} \right)^\alpha & \text{if } x < x_{\text{max}} \\ 1 & \text{otherwise} \end{cases} \quad \text{（通常 } x_{\text{max}} = 100,\ \alpha = 0.75\text{）}$
优化训练：通过梯度下降（如 Adagrad）更新词向量。

输入：全局共现矩阵 $X$
输出：
- 最终词向量取平均： $vectori=wi+w~i2\text{vector}_i = \dfrac{\mathbf{w}_i + \tilde{\mathbf{w}}_i}{2}$

特点	说明
全局与局部结合	融合全局统计（LSA）和局部上下文（Word2Vec）的优势
加权损失函数	通过 $f(X_{ij})$ 抑制低频词噪声，提升稳定性
对称性	共现矩阵对称，目标词与上下文词角色可互换
高效训练	利用共现矩阵优化，适合大规模数据