
中文分词技术研究
风吹过的时光
别问我是谁,我只是个过客。
展开
-
浅谈MMSEG分词算法
最近看了下MMSEG分词算法,觉得这个算法简单高效,而且还非常准确 作者声称这个规则达到了99.69%的准确率并且93.21%的歧义能被这个规则消除。 核心思想是抽取3个可能的词(存在多个组合),然后根据4个消歧义规则确定到底选择那个组合 1. 组合长度最大 2. 组合中平均词语长度最大 3. 词语长度的变化率最小 4. 计算组合中所有单字词词频的自然对数,然后将得到的值相加转载 2014-05-08 07:31:18 · 1838 阅读 · 0 评论 -
friso官方网站下载及官方信息
官方网站:https://code.google.com/p/friso/ 最新动态:friso-1.6.0发布了(2014.05.08 最新版本) 开源,简单易用,很适合分词技术的研究。 一。friso中文分词器 Friso是使用c语言开发的一款高性能中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。同时支原创 2014-05-08 07:52:02 · 5077 阅读 · 4 评论