中文分词
坚持到底cw
奋斗青年
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
中文分词算法—— 基于词典的方法
基于词典的正向最大匹配算法,算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典。 算法流程图如下: 转自http://yangshangchuan.iteye.com/blog/2031813转载 2014-03-17 13:40:10 · 10938 阅读 · 0 评论 -
中文分词算法——基于统计的分词
1.基于统计的分词(无字典分词) 主要思想:上下文中,相邻的字同时出现的次数越多,就越可能构成一个词。因此字与字相邻出现的概率或频率能较好的反映词的可信度。 主要统计模型为:N元文法模型(N-gram)、隐马尔科夫模型(Hidden Markov Model, HMM) 1.1N-gram模型思想 模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与转载 2014-03-17 13:51:04 · 11176 阅读 · 0 评论
分享