3、中文分词与单文档术语关联推理模型解析

中文分词与单文档术语关联推理模型解析

中文分词算法对比与实验

在中文分词领域,以往的研究中已有利用互信息(Mutual Information, MI)进行中文分词的方法。例如,Chien 等人(1997)和 Ong 等人(1999)在关键短语提取中运用了 MI。不过,新提出的算法与这些现有研究有所不同。

  • 现有方法
    • Chien 等人(1997) :先将给定字符串拆分成不同长度的标记,然后使用 MI 过滤掉 MI 值低于阈值的字符串。
    • Ong 等人(1999) :在 Chien 的工作基础上,提出了可更新的 PAT - 树,允许动态更新字符串频率。
  • 新算法 :首先对给定字符串进行粗分割,接着计算相邻标记的 MI 值,并将其与阈值比较。若 MI 值较高,则合并标记并将新单词添加到字典中;否则,保持标记不合并。此外,新算法采用混合方法,第一阶段使用基于字典的方法对给定文本进行粗分割,而其他两种方法则直接根据字符组成进行复合。

为了评估新提出的 IASeg 系统的性能,将其与 Hylanda 分词器(www.hylanda.com)和 ICTCLAS 分词器(Zhang 等人,2003)进行比较。
- Hylanda 分词器 :基于字典的分词器,在实践中广泛应用,如搜索引擎中搜。
- ICTCLAS 分词器

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值