Nutch中文支持bug(out of range 修复)
问题描述:由于Nutch不是原生支持中文的,开发者没有考虑到中文的分词会存在token的交叉重叠的情况,导致在根据用户输入查询串的token获取页面summary时出现:StringIndexOutOfBoundsException的异常。比如:“教育方针”可能出现这样的分词“教育方针”、“教育”、“方针”,这几个token就交叉重叠了。(网上有bupo.Jung写的另外一篇文章,我也进行
转载
2012-09-25 09:54:27 ·
434 阅读 ·
0 评论