MMSeg分词算法简述

最新推荐文章于 2024-04-24 16:54:18 发布

原创

最新推荐文章于 2024-04-24 16:54:18 发布 · 1.8k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #教育 #filter #system #email #网络

本文简述了MMSEG分词算法，该算法基于最大匹配原则，包含chunk和规则两个核心概念。Chunk具有长度、平均长度、标准差平方和自由语素度四个属性。规则作为过滤器，包括最大匹配、平均词长最大、词长标准差最小和单字词自由语素度之和最大四个标准。分词过程中，复杂最大匹配先应用规则1，然后根据结果依次应用规则2、3、4，直到找到最佳chunk。通过举例展示了复杂最大匹配的分词过程。

MMSeg只是实现了Chih-Hao Tsai的MMSEG算法，这是一个来源于网络的分词算法。我照抄了算法开始的部分：

MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm

Published: 1996-04-29
Updated: 1998-03-06
Document updated: 2000-03-12
License: Free for noncommercial use
Copyright 1996-2006 Chih-Hao Tsai (Email: hao520 at yahoo.com )

您可以在Chih-Hao Tsai's Technology Page找到算法的原文。

我将依据自己的理解来简述MMSeg分词算法的基本原理，如有错误请不吝赐教。

首先来理解一下chunk，它是MMSeg分词算法中一个关键的概念。Chunk中包含依据上下文分出的一组词和相关的属性，包括长度(Length)、平均长度(Average Length)、标准差的平方(Variance)和自由语素度(Degree Of Morphemic Freedom)。我在下面列出了这4个属性的计算方法：

属性

含义