CS224D 课程学习笔记 L02

最新推荐文章于 2022-06-16 10:43:32 发布

蜡笔大龙猫

最新推荐文章于 2022-06-16 10:43:32 发布

阅读量926

点赞数 4

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/pirage/article/details/84931180

这篇博客详细介绍了词向量的生成方法，包括one-hot向量、共现矩阵及其问题，以及SVD和word2vec。重点讲解了word2vec的预测上下文思想，解释了其优势和如何解决矩阵计算的复杂性。还提及了Glove和几种词向量方法的对比，并简述了一元、二元语言模型和CBOW、Skip-gram模型。

Lecture 2 主要介绍了传统的共现矩阵生成词向量方法和迭代生成词向量的方法，例如word2vec和Glove。

文章目录

Word Vectors

人类对“词义”定义为通过一个词或者短语表示的意思，人想要通过词表达的意思，写作、艺术表达的意思。

计算机定义“词义”，通常是使用WordNet之类的分类方法，比如说，具有is-a关系、代名词集合。例如，“panda” is-a “animal”，“panda” is-a “vertebrate”，“good”的代名词集合有“full”，“expert”等。

首先，介绍一个可以说是最简单的词向量：

one-hot vector

one-hot向量就是将每个词表达为一个大小为|V|*1的向量，其中词所在的位置为1，其他位置全为0。|V|表示词典的大小。

这种表示方法存在的问题有：

丢失了词词之间的细小的差别
无法处理新词
带有主观性
需要人力实现
很难精确计算词之间的相似性

现在，一个很成功的统计NLP想法就是，通过邻域词（上下文）来表达词的信息。

怎样通过上下文表达词呢？答案是，共现矩阵。

共现矩阵

生成共现矩阵有两种方法：整篇文档和滑动窗口。

整篇文档

根据文档生成大小为|V|*M的共现矩阵，第 i 行第 j 列表示词 i 在文档 j 中出现的次数。这种方法会由主题引申到“潜语义分析”。很明显，随着文档数量M的增加，矩阵大小也在增加。
滑动窗口

使用滑动窗口能够同时捕获到句法（POS）和语义信息。

生成的共现矩阵是对称的，对角线上元素为0，矩阵大小为n*n，n表示词的个数。

共现矩阵存在的问题

在Google级别的公司处理NLP任务，词的个数会达到百万级别，这就导致了共现矩阵具有很高的维度，需要更大的存储空间。而在后续的分类等任务中，也会存在着矩阵稀疏的问题，导致模型的鲁棒性很差。

解决方法：使用低纬度的向量来存储词的大部分信息，也叫“密集向量”，通常大小为25~1000。怎样降低共现矩阵的维度呢？

接下来介绍两种方法：SVD-Based和 Iteration-Based。

SVD

对共现矩阵X应用SVD（Singular Value Decomposition）奇异值分解。奇异值分解适用于任意大小的矩阵。对于大小为n*m的矩阵X，奇异值分解为：

$X=USV^T$

其中，U的大小n*n，每列向量是正交的，成为左奇异向量；S的大小n*m，对角线上为奇异值，按照从大到小排列，除对角线外其他元素都是0；V的大小为m*m，列向量也是正交的，成为右奇异向量。奇异值表征的是特征向量的重要性。

复习一下SVD的求解过程：

$(X^TX)v_i = \lambda_iv_i$
$\sigma_i = \sqrt{\lambda_i}$
$u_i = \frac{1}{\sigma_i}Xv_i$

通常，前10%~1%的奇异值的和就占了全部的奇异值之和的99%以上，所以，经常用部分奇异值分类来近似矩阵X。得到的分解公式：

X_{n*m} = U_{n*r}S_{r*r}V_{r*m}^{T}

python可以通过调用numpy实现SVD：

import numpy as np
la = np.linalg
words = [“I”,”like”,”enjoy”,”deep”,”learning”,”NLP”,”flying”,”.”]
X = np.array([0,2,1,0,0,0,0,0],
                       [2,0,0,1,0,1,0,0],
                       [1,0,0,0,0,0,1,0],
                       [0,1,0,0,1,0,0,0],
                       [0,0,0,1,0,0,0,1],
                       [0,1,0,0,0,0,0,1],
                       [0,0,1,0,0,0,0,1],
                       [0,0,0,0,1,1,1,0])
U, s, vh = la.svd(X, full_matrices=False)