fasttext词向量迁移

最新推荐文章于 2025-08-22 23:51:24 发布

原创

最新推荐文章于 2025-08-22 23:51:24 发布 · 1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #深度学习 #人工智能

文章介绍了词向量的概念，特别是fastText提供的预训练词向量模型，包括CBOW和skipgram模式训练的多种语言模型。通过下载bin.gz文件，解压并加载bin文件，可以进行词向量的迁移。以中文词向量为例，展示了如何加载模型并利用邻近词检查效果，证明预训练模型可在NLP任务中直接应用。

词向量迁移

什么是词向量迁移
fastText中有哪些可以迁移的词向量模型
掌握如何使用fasttext进行词向量迁移

1、什么是词向量？

使用在大型语料库上已经训练好的词向量。

2、fasttext里面可以提供迁移的词向量：

fasttext提供了157种语言的在CommonCrawl和Wikipedia语料上进行训练的可迁移词向量模型, 它们采用CBOW模式进行训练, 词向量维度为300维.

可通过该地址查看具体语言词向量模型：

https://fasttext.cc/docs/en/crawl-vectors.html

fasttext提供了294种语言的在Wikipedia语料上进行训练的可迁移词向量模型, 它们采用skipgram模式进行训练, 词向量维度同样是300维.

https://fasttext.cc/docs/en/pretrained-vectors.html

3、如何进行词向量的迁移

第一步: 下载词向量模型压缩的bin.gz文件
第二步: 解压bin.gz文件到bin文件
第三步: 加载bin文件获取词向量
第四步: 利用邻近词进行效果检验

第一步下载词向量模型的bin.gz的压缩文件

# 这里我们以迁移在CommonCrawl和Wikipedia语料上进行训练的中文词向量模型为例:
# 下载中文词向量模型(bin.gz文件)
wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.zh.300.bin.gz

第二步：解压bin.gz文件到bin

# 使用gunzip进行解压, 获取cc.zh.300.bin文件
gunzip cc.zh.300.bin.gz

第三步加载bin文件

def fast_text_model():
    """
    从fastext官网下载的中文词向量,来测试一下中文的相似度情况
    :return:
    """
    wiki_chinese = fasttext.load_model(r"D:\Downloads\cc.zh.300.bin\cc.zh.300.bin")

    print(wiki_chinese.words[:100])

    # 利用邻近词检查
    res1 = wiki_chinese.get_nearest_neighbors("音乐")
    for val i