词嵌入向量WordEmbedding的原理和生成方法

最新推荐文章于 2025-11-20 11:49:01 发布

原创

最新推荐文章于 2025-11-20 11:49:01 发布 · 2.8k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#词嵌入向量 #WordEmbedding

词嵌入向量WordEmbedding是NLP的关键技术，它将单词转化为固定长度向量，解决了一词多义和计算效率问题。本文介绍了WordEmbedding的使用和生成方法，包括其优于one-hot编码的特性，以及通过神经网络，特别是n-gram方法来训练WordEmbedding的步骤。

词嵌入向量WordEmbedding的原理和生成方法

WordEmbedding的使用
WordEmbedding的生成

WordEmbedding

词嵌入向量(WordEmbedding)是NLP里面一个重要的概念，我们可以利用WordEmbedding将一个单词转换成固定长度的向量表示，从而便于进行数学处理。本文将介绍WordEmbedding的使用方式，并讲解如何通过神经网络生成WordEmbedding。

WordEmbedding的使用

使用数学模型处理文本语料的第一步就是把文本转换成数学表示，有两种方法，第一种方法可以通过one-hot矩阵表示一个单词，one-hot矩阵是指每一行有且只有一个元素为1，其他元素都是0的矩阵。针对字典中的每个单词，我们分配一个编号，对某句话进行编码时，将里面的每个单词转换成字典里面这个单词编号对应的位置为1的one-hot矩阵就可以了。比如我们要表达“the cat sat on the mat”，可以使用如下的矩阵表示。

one-hot矩阵表示法

one-hot表示方式很直观，但是有两个缺点，第一，矩阵的每一维长度都是字典的长度，比如字典包含10000个单词，那么每个单词对应的one-hot向量就是1X10000的向量，而这个向量只有一个位置为1，其余都是0，浪费空间，不利于计算。第二，one-hot矩阵相当于简单的给每个单词编了个号，但是单词和单词之间的关系则完全体现不出来。比如“cat”和“mouse”的关联性要高于“cat”和“cellphone”，这种关系在one-hot表示法中就没有体现出来。

WordEmbedding解决了这两个问题。WordEmbedding矩阵给每个单词分配一个固定长度的向量表示，这个长度可以自行设定，比如300，实际上会远远小于字典长度（比如10000）。而且两个单词向量之间的夹角值可以作为他们之间关系的一个衡量。如下表示：

WordEmbedding表示法

通过简单的余弦函数，我们就可以计算两个单词之间的相关性，简单高效：
两个向量相关性计算

因为WordEmbedding节省空间和便于计算的特点，使得它广泛应用于NLP领域。接下来我们讲解如何通过神经网络生成WordEmbedding。

WordEmbedding的生成

WordEmbedding的生成我们使用tensorflow，通过构造一个包含了一个隐藏层的神经网络实现。

下面是下载数据和加载数据的代码，一看就懂。训练数据我们使用的是http://mattmahoney.net/dc/enwik8.zip数据，里面是维基百科的数据。

def maybe_download(filename, url):
    """Download a file if not present, and make sure it's the right size."""
    if not os.path.exists(filename):
        filename, _ = urllib.urlretrieve(url + filename, filename)
    return filename


# Read the data into a list of strings.
def read_data(filename):
    """Extract the first file enclosed in a zip file as a list of words."""
    with zipfile.ZipFile(filename) as f:
        data = tf.compat.as_str(f.read(f.namelist()[0])).split()
    return data

def collect_data(vocabulary_size=10000):
    url = 'http://mattmahoney.net/dc/'
    filename = maybe_download('enwik8.zip', url)
    vocabulary = read_data(filename)
    print(vocabulary[:7])
    data, count, dictionary, reverse_dictionary = build_dataset(vocabulary, vocabulary_size)