
分词
文章平均质量分 83
wojiaoxiaofage
这个作者很懒,什么都没留下…
展开
-
paoding分词工具的字典如何构建
分词工具不管如何变,其肯定会包含字典管理模块(当然,这是针对按字符串匹配分词),就算是基于语义分词也得有语义字典,基于统计需要词频字典等等。 在调研了mmseg4j,ictclas4j(imdict和ictclas4j属于一类,只不过其为了效率去掉了ictclas4j的命名实体识别部分),IKAnalyzer,paoding 等分词器后,发现他们的字典管理基本大同小异。一下以...原创 2012-05-02 16:58:42 · 242 阅读 · 0 评论 -
paoding基于词典如何分词
上次介绍了Paoding的字典数据结构,这次介绍下paoding是如何对待分词文本依据词典分词的。paoding在查找字典时依据两个类: BinaryDictionary 和 HashBinaryDictionary。上次也已经介绍过这两个数据结构,这里不再重复。 HashBinaryDictionary其实就是把大块数据词典切分成小块的词典,并用BinaryDictiona...原创 2012-05-03 17:29:59 · 138 阅读 · 0 评论 -
IKAnalyzer 分词如何消歧
个人认为分词最根本的有三个步骤:字典加载,根据一定策略分词,消歧。稍微介绍过分词程序的基本词典数据结构,接着看看如何进行消歧。分词不用多说,比较简单。 拿IKAnalyzer分词器为例,IKAnalyzer的切分方式是细粒度切分,当不需要智能处理时,其就把切出的所有词输出,但若启动了智能处理,那么接下来就是要进行消歧工作。 细粒度切出的词比较杂,但是经过智...原创 2012-05-11 15:36:07 · 438 阅读 · 0 评论 -
mmseg4j的字典数据结构(版本1.8.5)
最近在做分词,在网上发现了MMSEG,论文简单入理。在code.google.com上搜到了java的实现版本,非常感谢chenlb开源自己的代码。 在学习mmseg4j对字典的结构比较困惑,做了些调研,写下自己的感受。 mmseg4j采用 key-tree的形式存储字典数据结构,这有点类似中科院的ictclas4j的字典结构,ictclas4j的字典结构含有676...原创 2012-04-12 18:03:41 · 131 阅读 · 0 评论