一、引言
前边一节介绍了Word2Vec模型训练同义词,那么在大数据量的情况下,我们自然想到了用spark来进行训练。下面就介绍我们是如何实现spark上的模型训练。
二、分词
模型训练的输入是分好词的语料,那么就得实现spark上的分词。
def split(jieba_list, iterator):
sentences = []
for i in iterator:
try:
seg_list = []
#out_str = ""
s = ""
for c in i:
if not c is