唐|01python数据分析与机器学习|26使用Gensim库构造中文维基百科数据词向量模型

博客介绍了gensim的使用,如通过min_count参数控制基准词频,合理值在0 - 100间;用size参数设置神经网络层数,合理范围为10 - 数百。还提及以维基百科为中文数据源,经繁简转换、分词、建模等步骤处理,并测试模型找相近词。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

gensim的使用

from gensim.models import word2vec         #掉包
 sentences = [s.split() for s in raw_sentences]                     #分词
model = word2vec.Word2Vec(sentences,min_count=1)       #引包

min_count=1:
在不同大小的语料集中,我们对于基准词频的需求也是不一样的。比如在较大的语料集中,希望忽略只出现过一两次的单词,可以通过设置min_count参数进行控制。一般而言,合理的参数值会设置在0-100之间。
Size:
size参数用来设置神经网络的层数,Word2Vec中默认值是设置为100层,更大的层数意味着更多的输入数据,不过也能提升整体的准确度,合理的范围为10—数百

中文数据源–维基百科

.xml-text(process提取)
①繁体-简体(opencc
②分词(jieba)
③建模(word2vec
④测试模型(找出和已经知道词相近的词)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值