Word2Vec 简介

最新推荐文章于 2025-02-18 00:25:48 发布

YoutiaoNo2

最新推荐文章于 2025-02-18 00:25:48 发布

阅读量167

点赞数

本文链接：https://blog.youkuaiyun.com/YoutiaoNo2/article/details/114553952

版权

本文详细介绍了Word2Vec的skip-gram和CBOW模型，包括负采样策略，以及在推荐系统中的应用，如listing embedding。讨论了其优缺点，涉及词向量动态调整和Elmo等深度学习方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

两种方法skip-gram和CBOW
Skip-gram：中心词预测上下文。
目标函数：
$w_1w_2\dots w_{N}$
$\begin{aligned} &\underset{\theta}{\arg \max}\underset{w\in text}{\Pi}\underset{c\in c(w)}{\Pi}\log P(c|w;\theta)\\ &=\underset{\theta}{\arg \max}\underset{w\in text}{\Pi}\underset{c\in c(w)}{\Pi}\log\frac{e^{u_{c}\cdot v_{w}}}{\sum e^{u_{c}\cdot v_{w}}}\\ &=\underset{\theta}{\arg \max}\underset{w\in text}{\Pi}\underset{c\in c(w)}{\Pi} u_{c}\cdot v_{w}-\log \sum e^{u_{c}\cdot v_{w}} \end{aligned}$
其中u为上下文矩阵，v为中心词向量。
Negative Sampling
$\underset{\theta}{\arg \max}\underset{(w,c)\in D}{\Pi}P(D=1|w,c;\theta)\underset{(w,c)\in \widetilde{D}}{\Pi}P(D=0|w,c;\theta)$
其中 $D$ 为正样本， $\widetilde{D}$ 为负样本。
时间复杂度比较高。使用随机梯度下降法求解。
总结：
使用skip-gram和negative sampling的方法。

$\in D$ 正样本集合。N(w)：针对中心词w，进行负采样。使用随机梯度下降法求解。
$\begin{aligned} u_{c} = u_{c} + \eta \cdot \frac{\partial l(\theta)}{\partial u_{c}}\\ u_{c'} = u_{c'} + \eta \cdot \frac{\partial l(\theta)}{\partial u_{c'}} \quad c' \in N(w)\\ v_{w} = v_{w} + \eta \cdot \frac{\partial l(\theta)}{\partial v_{w}}\\ \end{aligned}\\$

将词向量映射到二维空间，使用TSNE进行可视化。
计算相似性和相关性。余弦相似度。
类比的方式。
如：
北京：上海类比 Washington : NewYork
首先计算北京上海两个词之间的距离。然后寻找与washington词的距离最近的词库中的某词，如果是newyork则比较理想，若不是则不理想。

场景：某些语言(具备一定的形态特征ing, ed)
直接忽略掉
将单词按照n-gram拆开，得到词向量。n可取3-6, 如reading：
^re+rea+ead+adi+din+ing+read+eadi+adin+ding+…+readin+eading