文本表示（二）c&w模型

最新推荐文章于 2025-08-13 04:19:22 发布

原创最新推荐文章于 2025-08-13 04:19:22 发布 · 3.1k 阅读

CC 4.0 BY-SA版权

5 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

文本表示（二）

在前面提到的神经网络语言模型中，词向量只是一个副产品，并不是核心任务（它主要训练了一个用来度量语言流畅程度的模型，其中词向量是它中间产品），而且神经网络模型中的矩阵运算操作会极大的降低模型的训练效率。

所以如果目标只是学习词向量的话，可以没必要采用语言模型的方式，而可以直接从分布式假说的角度来设计模型和目标函数，c&w模型就是直接以学习和优化词向量为最终任务的。

给定训练语料中的任意一个n元组(n=2C+1)： $w_i,C)=w_{i-C}...w_{i-1}w_iw_{i+1}...w_{i+C}$
如果将中心词 $w_i$ 随机的替换成词汇表中的任意其他词 $w^{\\'}_i$ ，得到一个新的n元组 $w^{\\'}_i,C)=w_{i-C}...w_{i-1}w^{\\'}_iw_{i+1}...w_{i+C}$
那么 $w_i,C)$ 一定比 $w^{\\'}_i,C)$ 更加合理，即如果对每个n元组进行打分那么 $w_i,C)$ 一定比 $w^{\\'}_i,C)$ 的分数高： $s(w_i,C)>s(w^{\\'}_i,C)$

如图，是一个简单的前馈神经网络，目的是计算n元组的得分，并从得分区分文本是来自真实的训练文本还是随机生成的文本。真实的训练文本中的n元组 $w_i,C)$ 为正样本，随机生成的文本 $w^{\\'}_i,C)$ 为负样本。
在这里插入图片描述

首先，对于 $s(w_i,C)$ ，将 $w_{i-C}...w_{i-1}w_iw_{i+1}...w_{i+C}$ 中的每一个词从词向量矩阵L中获取对应的词向量，并进行拼接作为第一层 $h_0$
$h_0$ 经过一层隐藏层的学习，得到 $h_1=f(W_0h_0+b_0)$ ，其中f(·)是非线形激活函数
$h_1$ 再经过线形变换，得到n元组 $w_i,C)$ 的得分： $s(w_i,C)=W_1h_1+b_1$
在词向量优化的过程中，c&W模型希望每一个正样本应该比对应的负样本打分高1分： $s(w_i,C)>s(w'_i,C)+1$
对于整个训练语料，模型需要遍历所有的n元组，并对目标函数进行最小化优化：
- $∑(wi,C)∈D∑wi′∈Vmax(0,1+s(wi′,C)−s(wi,C))\sum_{(w_i,C)\in{D}}\sum_{w'_i\in{V}}max(0, 1+s(w'_i,C)-s(w_i,C))$