以fastText中的无监督训练函数为例,详细介绍各个参数的含义:
from fastText import train_unsupervised
model = train_unsupervised(input, model='skipgram', lr=0.05,
dim=100, ws=5, epoch=5, minCount=5,
wordNgrams=1, loss='ns', bucket=2000000,
thread=12, lrUpdateRate=100, t=0.0001,
label='__label__', verbose=2,
pretrainedVectors='')
1. model: 首先是模型的选择,skip-gram 以及 CBOW。其中skip-gram是给定当前词汇预测上下文单词,而CBOW则是通过上下文预测当前单词。官方给的建议是 skip-gram