Dive-into-DL-PyTorch项目解析：使用预训练词向量实现近义词与类比词搜索-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00411/article/details/148375707

Dive-into-DL-PyTorch项目解析：使用预训练词向量实现近义词与类比词搜索

Dive-into-DL-PyTorch 本项目将《动手学深度学习》(Dive into Deep Learning)原书中的MXNet实现改为PyTorch实现。项目地址: https://gitcode.com/gh_mirrors/di/Dive-into-DL-PyTorch

引言

在自然语言处理领域，词向量技术已经成为基础且重要的工具。本文将基于Dive-into-DL-PyTorch项目中的实现，详细介绍如何使用预训练的词向量模型来完成近义词搜索和类比词推理两大核心任务。通过本文，读者不仅能理解相关算法的原理，还能掌握实际应用中的实现技巧。

预训练词向量概述

预训练词向量是通过在大规模语料库上训练得到的词表示方法，它能将词语映射到低维稠密的向量空间中。这种表示方式最大的特点是：语义相似的词在向量空间中的距离较近，同时词向量还能捕捉词语之间的语法和语义关系。

目前常用的预训练词向量包括：

GloVe (Global Vectors for Word Representation)
fastText
word2vec

在PyTorch生态中，我们可以方便地通过torchtext库来加载这些预训练模型。

加载预训练词向量

首先我们需要了解torchtext提供的预训练词向量资源：

import torchtext.vocab as vocab

# 查看所有预训练词向量名称
print(vocab.pretrained_aliases.keys())

# 筛选GloVe系列的词向量
glove_models = [key for key in vocab.pretrained_aliases.keys() if "glove" in key]
print(glove_models)

GloVe模型的命名遵循"模型.数据集.词向量维度"的规范，例如：

glove.6B.50d：在60亿词规模数据上训练，维度为50
glove.840B.300d：在8400亿词规模数据上训练，维度为300

加载一个中等规模的GloVe模型：

cache_dir = "/path/to/your/cache/directory"
glove = vocab.GloVe(name='6B', dim=50, cache=cache_dir)

加载后的模型对象包含三个重要属性：

stoi (string to index)：词语到索引的字典
itos (index to string)：索引到词语的列表
vectors：所有词向量组成的矩阵

近义词搜索实现

近义词搜索的核心思想是计算词语向量之间的余弦相似度，找出相似度最高的前k个词。

余弦相似度计算

余弦相似度衡量的是两个向量在方向上的相似程度，计算公式为：

cos(θ) = (A·B) / (||A||·||B||)

其中A·B表示向量点积，||A||表示向量的L2范数。

实现代码如下：

def knn(W, x, k):
    # W: 所有词向量矩阵
    # x: 查询词的向量
    # k: 返回的最近邻数量
    
    # 计算余弦相似度（添加1e-9保证数值稳定性）
    cos = torch.matmul(W, x.view((-1,))) / (
        (torch.sum(W * W, dim=1) + 1e-9).sqrt() * torch.sum(x * x).sqrt())
    
    # 获取topk个最相似的结果
    _, topk = torch.topk(cos, k=k)
    topk = topk.cpu().numpy()
    return topk, [cos[i].item() for i in topk]

近义词查询函数

基于knn函数，我们可以实现一个方便的近义词查询接口：

def get_similar_tokens(query_token, k, embed):
    # 获取查询词的索引
    query_idx = embed.stoi[query_token]
    
    # 计算最相似的k+1个词（包含自身）
    topk, cos = knn(embed.vectors, embed.vectors[query_idx], k+1)
    
    # 打印结果（跳过查询词本身）
    for i, c in zip(topk[1:], cos[1:]):
        print(f'cosine sim={c:.3f}: {embed.itos[i]}')

实际应用示例

让我们看几个具体的查询示例：

# 查询"chip"的近义词
get_similar_tokens('chip', 3, glove)
"""
输出：
cosine sim=0.856: chips
cosine sim=0.749: intel
cosine sim=0.749: electronics
"""

# 查询"baby"的近义词
get_similar_tokens('baby', 3, glove)
"""
输出：
cosine sim=0.839: babies
cosine sim=0.800: boy
cosine sim=0.792: girl
"""

从结果可以看出，预训练词向量确实能够捕捉到词语之间的语义相似性。

类比词推理实现

类比词推理是词向量的另一个有趣应用，它能够发现词语之间的类比关系，例如"男人:女人::领导者:女性领导者"。

类比词推理原理

给定类比关系a:b :: c:?，我们需要找到最合适的d。算法步骤如下：

计算向量关系：vec(b) - vec(a) + vec(c)
在词向量空间中寻找与结果向量最接近的词

这种方法的理论基础是词向量空间中的线性关系，例如： vec("领导者") - vec("男人") ≈ vec("女性领导者") - vec("女人")

实现代码

def get_analogy(token_a, token_b, token_c, embed):
    # 获取三个词的向量
    vecs = [embed.vectors[embed.stoi[t]] 
            for t in [token_a, token_b, token_c]]
    
    # 计算类比向量
    x = vecs[1] - vecs[0] + vecs[2]
    
    # 寻找最相似的词
    topk, _ = knn(embed.vectors, x, 1)
    return embed.itos[topk[0]]

实际应用示例

让我们测试几个经典的类比关系：

# 性别类比
print(get_analogy('man', 'woman', 'son', glove))  # 输出: daughter

# 国家-首都类比
print(get_analogy('beijing', 'china', 'tokyo', glove))  # 输出: japan

# 形容词比较级
print(get_analogy('bad', 'worst', 'big', glove))  # 输出: biggest

# 动词时态变化
print(get_analogy('do', 'did', 'go', glove))  # 输出: went

这些例子展示了词向量在捕捉语法和语义关系方面的强大能力。