整理常用的中英文预训练词向量（Pretrained Word Vectors）

最新推荐文章于 2025-10-17 16:32:36 发布

原创

最新推荐文章于 2025-10-17 16:32:36 发布 · 1.6w 阅读

CC 4.0 BY-SA版权

文章标签：

NLP用向量表示单词，这些向量捕获有关语言的隐藏信息，例如单词类比或语义。它还用于提高文本分类器的性能，可以广泛应用于许多下游文本处理任务。

本文整理一下常用的中、英文预训练词向量的链接，无须自己训练，下载即可使用。

官网：https://ai.tencent.com/ailab/nlp/zh/embedding.html
下载页面：https://ai.tencent.com/ailab/nlp/zh/download.html

2021年12月24日发布版本v0.2.0，提供四个版本下载，词汇规模有200万和1200万两种，词向量维度有100和200维两种，大家可以按需求下载。
在这里插入图片描述

数据规模：1200 万个中文词汇、短语
数据维度：提供100维、200维词向量
数据来源：包含从新闻、网页和小说中收集的大规模文本
数据优势：主要在于覆盖率、新鲜度和准确性。包含大量的领域词汇或俚语，如“喀拉喀什面河”、“皇帝菜”、“不念僧佛面”、“冰火两重天”、“煮酒论”英雄”，大多数现有的嵌入语料库都没有涵盖。还有一些近期出现或流行的新鲜词，如“冠病毒”、“元宇宙”、“了不起的新儿”、“流金岁月”、“凡尔赛文学”、“yyds”等。
训练方式：Directional Skip-Gram¹

from gensim.models import KeyedVectors
wv_from_text = KeyedVectors.load_word2vec_format(file, binary=False)

https://github.com/Embedding/Chinese-Word-Vectors

项