热点词汇抽取:IKAnalyzer + Lucene + MapReduce
本文记录了最近在做中文热点词汇抽取的过程。首先,需要一个中文分词器,我选择了IKAnalyzer。第二,为了处理同义词,使用了Lucene。第三,考虑到数据量,使用了MapReduce。经过IKAnalyzer和Lucene的处理,测试文本将被切分成无同义词的词的集合,然后再用MapReduce对各个词做词频统计,和WordCount的过程一样,这就是第一个job做的事情。第一个job结束
原创
2016-03-09 16:06:44 ·
918 阅读 ·
0 评论