MMSeg分词算法简述

本文简述了MMSEG分词算法,该算法基于最大匹配原则,包含chunk和规则两个核心概念。Chunk具有长度、平均长度、标准差平方和自由语素度四个属性。规则作为过滤器,包括最大匹配、平均词长最大、词长标准差最小和单字词自由语素度之和最大四个标准。分词过程中,复杂最大匹配先应用规则1,然后根据结果依次应用规则2、3、4,直到找到最佳chunk。通过举例展示了复杂最大匹配的分词过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

MMSeg只是实现了Chih-Hao Tsai的MMSEG算法,这是一个来源于网络的分词算法。我照抄了算法开始的部分:

MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm

Published: 1996-04-29
Updated: 1998-03-06
Document updated: 2000-03-12
License: Free for noncommercial use
Copyright   1996-2006 Chih-Hao Tsai (Email: hao520 at yahoo.com )

您可以在Chih-Hao Tsai's Technology Page找到算法的原文。

我将依据自己的理解来简述MMSeg分词算法的基本原理,如有错误请不吝赐教。

首先来理解一下chunk,它是MMSeg分词算法中一个关键的概念。Chunk中包含依据上下文分出的一组词和相关的属性,包括长度(Length)、平均长度(Average Length)、标准差的平方(Variance)和自由语素度(Degree Of Morphemic Freedom)。我在下面列出了这4个属性的计算方法:

属性 含义
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值