
搜索相关
eric_wyf
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
庖丁解牛分词器增加对日文,韩文分词的支持问题
最近遇到一个问题,paoding切词的时候把日语和韩文的部分字符都过滤了。 原因是: 在用CJKKnife刀时执行该if (CharSet.isCjkUnifiedIdeographs(ch))语句进入到 CharSet类中的 public static boolean isCjkUnifiedIdeographs(char ch) { return ch >= 0x4E00 &...原创 2011-05-06 14:14:01 · 246 阅读 · 0 评论 -
paoding动态加载词典
关于paoding动态加载词典,网上多数是如下代码,但是我下载了2.0.4的源码后,发现Paoding.java 这个文件时空的,不存在这个方法 Paoding paoding = PaodingMaker.make(); paoding.stopAutoDetecting();//关闭自动词典监测,使用手动检测 用 paoding.dic.detector.interval ...原创 2011-09-01 14:18:04 · 158 阅读 · 0 评论 -
扩展TokenFilter,实现二次分词
经过paoding分词后,再对每个token进行2次分词,此处是二元切分法 public class MyCJKFilter extends TokenFilter { private TermAttribute termAtt = (TermAttribute) addAttribute(TermAttribute.class);; private OffsetAtt...2011-09-01 16:00:29 · 177 阅读 · 0 评论