
IK分词器源码解析
buster2014
没有比人更高的山,没有比脚更长的路...
展开
-
IK正向迭代最细粒度切分算法流程
文章来源:http://blog.sina.com.cn/s/blog_700848850101gvt5.htmlIK正向迭代最细粒度切分算法流程一、 IK分词初始化初始化最主要的工作就是读入词典,并将这些词放入内存字典树1.main2012.dic(关键词)2.quantifier.dic(量词)3.stopword.dic(停用词)4.转载 2015-08-08 17:56:19 · 5816 阅读 · 0 评论 -
IK 分词器 2012 FF 版本取消了 org.wltea.analyzer.solr.IKTokenizerFactory 类【导致只能使用ik分词器来进行分词,无法使用solr自带的其它过滤方式
文章来源:http://qb.doudang.com/doc-view-910.html看到ik分词器支持solr4.0, 于是下载了试用,结果发现IK 分词器 2012 FF 版本取消了 org.wltea.analyzer.solr.IKTokenizerFactory 类,这导致只能使用ik分词器来进行分词,无法使用solr自带的其它过滤方式。从iteye下找到了转载 2015-08-12 15:00:24 · 3230 阅读 · 0 评论 -
IK中文分词扩展自定义词典【源码解析:文中是Configuration类,但是我的是Configuration接口,DefaultConfig类,可能ik版本不一致】
文章来源:http://blog.youkuaiyun.com/iamaboyy/article/details/75699771.基于分布式系统的自定义分词要求与流程设计 (见图)E:\plan\readingnote\分词与索引\分词\2012-4-202.分词实现原理——词典的加载过程 2.1.分词词典的加载过程涉及到3个类,分别是Configuration类,Dir转载 2015-08-12 15:07:52 · 860 阅读 · 0 评论 -
IKAnalyzer 扩展词典(强制分词)【solr里添加扩展词典,扩展词典的格式必须是 utf-8 的无BOM格式编码。jav开发中 IKAnalyzer.cfg.xml必须在类路径根下】
文章来源:http://blog.youkuaiyun.com/longxia1987/article/details/8179665前面说到solr+IKAnalyzer来配置中文分词;在实际中我们有些需求是需要将特定的词作为一个分词来处理,那么我们就需要设置自己的词典例子:连帽上衣希望将 “连帽” 作为一个词来处理,并不希望作为 连,帽 来处理默认分转载 2015-08-12 14:36:30 · 1613 阅读 · 0 评论