分词相关内容
1:首先需要将需要分词统计的文本保存在.txt文件中,比如word.txt,如下2:分词过程需要用一个分词字典,字典中有所有分词的词组,比如中国,美国,中美等。分词字典使用的现成的网络库,github.com/huichen/sego/data/dictionary.txt,代码运行阶段会把分词文件加载到内存中。然后会通过分词字典,把待分词的文本,分解成n个词组。分词有两种输出模式,以"中华人民共和国"为例普通模式(searchMode=false)输出一个分词"[中华人民共和国].
原创
2022-04-08 11:36:54 ·
226 阅读 ·
0 评论