1、使用 word分词 进行分词:
1.1、下载word:
https://github.com/ysc/word
1.2、word分词器的使用:
1.2.1、参考:
https://my.oschina.net/apdplat/blog/228619
List<Word> words = WordSegmenter.seg("杨尚川是APDPlat应用级产品开发平台的作者");
List<Word> words = WordSegmenter.segWithStopWords("杨尚川是APDPlat应用级产品开发平台的作者");
System.out.println(words);仅引入包:word-1.3.1.jar 是不够的,会出现错误:NoClassDefFoundError: org/slf4j/LoggerFactory
还需要引入下面的包、可以解决上面的问题:
slf4j-api-1.7.22.jar 、 slf4j-log4j12-1.7.22.jar 、 log4j-1.2.17.jar
1.2.2、引入 log 包后会出现包日志输出,可以屏蔽
log4j:WARN
训练词向量命令:
nohup ./word2vec -train ./corpus/news_tensite_corpus.dat.seg -output vectors.r -cbow 1 -size 200 -window 8 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 0 > train.log 2>&1 &-window 8:窗口大小为8
-cbow 1:采用cbow算法
-binary 0:0训练结果不采用二进制存储
2340

被折叠的 条评论
为什么被折叠?



