文章目录
引言
NLP用向量表示单词,这些向量捕获有关语言的隐藏信息,例如单词类比或语义。它还用于提高文本分类器的性能,可以广泛应用于许多下游文本处理任务。
本文整理一下常用的中、英文预训练词向量的链接,无须自己训练,下载即可使用。
腾讯中文词汇/短语向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)
官网:https://ai.tencent.com/ailab/nlp/zh/embedding.html
下载页面:https://ai.tencent.com/ailab/nlp/zh/download.html
2021年12月24日发布版本v0.2.0,提供四个版本下载,词汇规模有200万和1200万两种,词向量维度有100和200维两种,大家可以按需求下载。

- 数据规模:1200 万个中文词汇、短语
- 数据维度:提供100维、200维词向量
- 数据来源:包含从新闻、网页和小说中收集的大规模文本
- 数据优势:主要在于覆盖率、新鲜度和准确性。包含大量的领域词汇或俚语,如“喀拉喀什面河”、“皇帝菜”、“不念僧佛面”、“冰火两重天”、“煮酒论”英雄”,大多数现有的嵌入语料库都没有涵盖。还有一些近期出现或流行的新鲜词,如“冠病毒”、“元宇宙”、“了不起的新儿”、“流金岁月”、“凡尔赛文学”、“yyds”等。
- 训练方式:Directional Skip-Gram1
使用方法
from gensim.models import KeyedVectors
wv_from_text = KeyedVectors.load_word2vec_format(file, binary=False)
中文词向量语料库 by 北京师范大学&人民大学
https://github.com/Embedding/Chinese-Word-Vectors
项

最低0.47元/天 解锁文章
&spm=1001.2101.3001.5002&articleId=123919563&d=1&t=3&u=5f51a0ed4ebb4a7c854cd8acb3d09577)
6986

被折叠的 条评论
为什么被折叠?



