NLP之---gensim库word2vec的使用经验

1.说明

在本篇中不介绍关于word2vec的算法原理,仅仅分析关于gensim库中word2vec的使用经验。

2.安装

pip install gensim

3.训练模型

from gensim.models import Word2Vec
model = Word2Vec(sentences=None, # 被训练的文本数据
				 corpus_file=None, # 语料的路径,可以替换掉sentence参数
				 size=100, # 词向量的维度
				 alpha=0.025, # 初始学习率
				 window=5, # 滑动窗口,左右各5个词
				 min_count=5, # 最小计数,如果单词统计数不够就不会进行训练
                 max_vocab_size=None, # 构建词汇表时的内存限制,默认不限制
                 sample=1e-3, # 对高频词进行下采样,采样比例阈值设置
                 seed=1, # 随机种子,初始化词向量时使用,单词的哈希值+seed
                 workers=3, # 线程数
                 min_alpha=0.0001, # 学习率会随迭代次数线性衰减
                 sg=0, # 1表示是skip-gram,0表示CBOW
                 hs=0, # 1表示层级softmax,0表示负采样
                 negative=5, # 如果>0表示使用负采样,官方实验推荐5-20
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值