中文分词与单文档术语关联推理模型解析
中文分词算法对比与实验
在中文分词领域,以往的研究中已有利用互信息(Mutual Information, MI)进行中文分词的方法。例如,Chien 等人(1997)和 Ong 等人(1999)在关键短语提取中运用了 MI。不过,新提出的算法与这些现有研究有所不同。
- 现有方法
- Chien 等人(1997) :先将给定字符串拆分成不同长度的标记,然后使用 MI 过滤掉 MI 值低于阈值的字符串。
- Ong 等人(1999) :在 Chien 的工作基础上,提出了可更新的 PAT - 树,允许动态更新字符串频率。
- 新算法 :首先对给定字符串进行粗分割,接着计算相邻标记的 MI 值,并将其与阈值比较。若 MI 值较高,则合并标记并将新单词添加到字典中;否则,保持标记不合并。此外,新算法采用混合方法,第一阶段使用基于字典的方法对给定文本进行粗分割,而其他两种方法则直接根据字符组成进行复合。
为了评估新提出的 IASeg 系统的性能,将其与 Hylanda 分词器(www.hylanda.com)和 ICTCLAS 分词器(Zhang 等人,2003)进行比较。
- Hylanda 分词器 :基于字典的分词器,在实践中广泛应用,如搜索引擎中搜。
- ICTCLAS 分词器
超级会员免费看
订阅专栏 解锁全文
599

被折叠的 条评论
为什么被折叠?



