MMSeg只是实现了Chih-Hao Tsai的MMSEG算法,这是一个来源于网络的分词算法。我照抄了算法开始的部分:
MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm
Published: 1996-04-29
Updated: 1998-03-06
Document updated: 2000-03-12
License: Free for noncommercial use
Copyright 1996-2006 Chih-Hao Tsai (Email: hao520 at yahoo.com )
您可以在Chih-Hao Tsai's Technology Page找到算法的原文。
我将依据自己的理解来简述MMSeg分词算法的基本原理,如有错误请不吝赐教。
首先来理解一下chunk,它是MMSeg分词算法中一个关键的概念。Chunk中包含依据上下文分出的一组词和相关的属性,包括长度(Length)、平均长度(Average Length)、标准差的平方(Variance)和自由语素度(Degree Of Morphemic Freedom)。我在下面列出了这4个属性的计算方法:
| 属性 | 含义 |

本文简述了MMSEG分词算法,该算法基于最大匹配原则,包含chunk和规则两个核心概念。Chunk具有长度、平均长度、标准差平方和自由语素度四个属性。规则作为过滤器,包括最大匹配、平均词长最大、词长标准差最小和单字词自由语素度之和最大四个标准。分词过程中,复杂最大匹配先应用规则1,然后根据结果依次应用规则2、3、4,直到找到最佳chunk。通过举例展示了复杂最大匹配的分词过程。
最低0.47元/天 解锁文章
2037

被折叠的 条评论
为什么被折叠?



