NLP基础1-词向量之序号化,One-Hot,BOW/TF,TF-IDF
NLP基础2-词向量之Word2Vec
NLP基础3-词向量之Word2Vec的Gensim实现
一、Gensim 框架下的W ord2Vec 重要参数
- vector_size: 最终期望提取的单词向量维度大小,就是 embedding_dim
- window: 窗口大小 = 周边词 + 目标词
- min_count: 单词频数小于该值的单词不参与训练
- sg: 1(Skip-gram) 0(CBOW) 两个结构
- hs: 1(hierarchical softmax) 0(n