唐|01python数据分析与机器学习|26使用Gensim库构造中文维基百科数据词向量模型

最新推荐文章于 2022-08-02 17:34:12 发布

原创最新推荐文章于 2022-08-02 17:34:12 发布 · 183 阅读

0 ·

CC 4.0 BY-SA版权

博客介绍了gensim的使用，如通过min_count参数控制基准词频，合理值在0 - 100间；用size参数设置神经网络层数，合理范围为10 - 数百。还提及以维基百科为中文数据源，经繁简转换、分词、建模等步骤处理，并测试模型找相近词。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

gensim的使用

from gensim.models import word2vec         #掉包

 sentences = [s.split() for s in raw_sentences]                     #分词

model = word2vec.Word2Vec(sentences,min_count=1)       #引包

min_count=1：
在不同大小的语料集中，我们对于基准词频的需求也是不一样的。比如在较大的语料集中，希望忽略只出现过一两次的单词，可以通过设置min_count参数进行控制。一般而言，合理的参数值会设置在0-100之间。
Size：
size参数用来设置神经网络的层数，Word2Vec中默认值是设置为100层，更大的层数意味着更多的输入数据，不过也能提升整体的准确度，合理的范围为10—数百