GloVe 与 fasttext

最新推荐文章于 2024-10-06 16:29:40 发布

JJmaker

最新推荐文章于 2024-10-06 16:29:40 发布

阅读量435

点赞数

CC 4.0 BY-SA版权

分类专栏： nlp

本文链接：https://blog.youkuaiyun.com/qq_42522262/article/details/90274181

nlp 专栏收录该内容

6 篇文章

订阅专栏

本文介绍了GloVe和fasttext两种词向量表示方法。GloVe利用共现矩阵和概率比值展现词义，通过优化损失函数得到词向量。而fasttext则引入n-gram，通过层次softmax提升计算效率，实现快速且准确的文本分类。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

glove

对于一个词 i 出现的次数为 $X_i$ ，在其某个窗口范围内的词 j 出现的次数为 $X_{ij}$ ， $X_{ij}$ 可以直接得到， $X_i$ 为所有 $X_{ij}$ 的累加和。对于 i 来说，共现矩阵要对所有 i 出现的地方计算 $X_{ij}$ ，最后再累加求和得到 $X_i$ 。共现矩阵局算的是概率值 $P_{ij} = P(j|i) = \frac{X_{ij}}{X_i}$ 。
j 是在 i 的窗口内出现的，所以利用到了局部窗口信息；次数的计算利用到了所有 i 和 j 共同出现的地方，这是全局信息。

glove 词向量为什么能够表现出词的意义？
假设有 3 个词：i，j，k。

如果词 k 与 i 关联较大，与 j 关联较小，那么 $P_{ik}$ 较大， $P_{jk}$ 较小， $\frac{P_{ik}}{P_{jk}}$ 远大于 1；
如果词 k 与 i 关联较小，与 j 关联较大，那么 $P_{ik}$ 较小， $P_{jk}$ 较大， $\frac{P_{ik}}{P_{jk}}$ 远小于 1；
如果词 k 与 i 关联较小，与 j 关联较小，那么 $P_{ik}$ 较小， $P_{jk}$ 较小， $\frac{P_{ik}}{P_{jk}}$ 约等于 1；

这样子是不是就可以某种程度上表现出词的意义来了。
因为是由向量出现的比值来表现词的意义的，那么我们的模型应该由概率比值来呈现。
最初模型为：
$F(w_i,w_j,w_k) = \frac{P_{ik}}{P_{jk}}$
（其中 $w_k$ 为上下文向量）
因为一个好的word vector应当是线性可加减的，因此对于word之间的差异，可以用减法来进行衡量，所以：
$F(w_i-w_j,w_k) = \frac{P_{ik}}{P_{jk}}$
又等式右边是一个标量，那么，将 F 内部表示成向量乘积的形式是一种很简便的方法：
$F((w_i-w_j)^Tw_k) = \frac{P_{ik}}{P_{jk}}$
又由于词向量与上下文词向量的角色不是固定的，我们应该能够随意地交换它们的角色，也就是说词向量和其上下文词向量的地位应该相等，将它们的位置颠倒 F 也不应该改变。那么公式应该对称。令
$F((w_i-w_j)^Tw_k) = \frac{F(w_i^Tw_k)}{F(w^T_jw_k)}$
其中， $F(w_i^Tw_k) = P_{ik}$
令 F = exp,那么：
$w_i^Tw_k = log(P_{ik}) = log(X_{ik})-log(X_i)$
将 $log(X_i)$ 移到左边，因为其为常数，设为 $b_i$ ，为了对称，加上一个常数 $b_k$ ，
那么：
$w_i^Tw_k + b_i + b_k = log(X_{ik})$
这个公式具有对称性，满足我们的要求（左边即为 $F(w_i^Tw_k)$ 。
损失函数为：
$\sum f(x_{ij})(w_i^Tw_j+b_i+b_j-logX_{ij})^2$
相对于通常的损失函数多出了一个加权函数 $f(x_{ij})$ 。
该加权函数应该满足下列条件：

f(0) = 0.
f(x) 应该为非减函数
对于很大的值 x，f(x) 应该相对较小

$f(x=)\begin{cases} (x/x_max)^\alpha \ \ if (x < x_{max}) \\ 1 \ \ otherwise \end{cases}$
在这里插入图片描述

fasttext

三层：输入层、隐藏层、输出层。
输出层为文本中的单词经过 lookup-table 得到的 embedding，通过线性变换到隐藏层（加权平均），再经过 softmax 输出该文本属于不同类的概率。当然，输出层可以换成层次 softmax （哈夫曼树）来提高计算效率。
一个突出的地方 n-gram。原本的输入是只有文本中单词的 embedding，现在还要加上所有单词的 n-gram 对应的 embedding。举例来说 dog 和 dogs ，它们的 1-gram，2-gram。。。基本一样，对应的 embedding也基本一样，那么它们的向量叠加的结果也会基本一样，这样子就可以很容易地将他们归为一类了。
fasttext 的优点：