1.说明
在本篇中不介绍关于word2vec的算法原理,仅仅分析关于gensim库中word2vec的使用经验。
2.安装
pip install gensim
3.训练模型
from gensim.models import Word2Vec
model = Word2Vec(sentences=None, # 被训练的文本数据
corpus_file=None, # 语料的路径,可以替换掉sentence参数
size=100, # 词向量的维度
alpha=0.025, # 初始学习率
window=5, # 滑动窗口,左右各5个词
min_count=5, # 最小计数,如果单词统计数不够就不会进行训练
max_vocab_size=None, # 构建词汇表时的内存限制,默认不限制
sample=1e-3, # 对高频词进行下采样,采样比例阈值设置
seed=1, # 随机种子,初始化词向量时使用,单词的哈希值+seed
workers=3, # 线程数
min_alpha=0.0001, # 学习率会随迭代次数线性衰减
sg=0, # 1表示是skip-gram,0表示CBOW
hs=0, # 1表示层级softmax,0表示负采样
negative=5, # 如果>0表示使用负采样,官方实验推荐5-20