分词：提高分词准确性的考虑

最新推荐文章于 2025-06-29 16:10:27 发布

原创

最新推荐文章于 2025-06-29 16:10:27 发布 · 2.7k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#算法 #优化 #语言

中科院的ICTCLAS的分词流程为：

一、分词 "张/华/平/欢迎/您"

二、posTagging "张/q 华/j 平/j 欢迎/v 您/r"

三、NE识别:人名识别,音译名识别,地名识别 "张/q 华/j 平/j 欢迎/v 您/r" "张华平/nr"

四、重新分词:"张华平/欢迎/您"

五、重新posTagging: "张华平/nr 欢迎/v 您/r"

北航软件所BUAASEISEG的分词流程：

在流程上进一步作了优化。首先FSA处理有明显特征的项（如域名、日期等）；然后ChineseDigitalFilter处理中英文数字（基数、序数、分数、小数）；BigramFileter的跌代实现上述概率模型来；最后FMMFilter在已经分好的分词结果的基础上在做一次最大匹配查漏补缺（主要针对“停词”及人名）。其中，BigramFileter为核心部分，在实现是，借助于二元跌代切分的方法实现。

从中我们可以看出：

1）为了提高分词的准确性，可以综合考虑分词，词性标注，实体识别的方法

2）分词的过程的可以考虑采用循环迭代使用上述方法，即：多次拆分和合并

3）分词辞典可以用多个，另外还可能有词性标注辞典，实体辞典

4）分词中应综合考虑编码（简繁，中英及其他语言）

5）分词的对象上：对于数字，日期，百分比等等可以特殊考虑和单独处理

6）分词过程中的多个处理步骤又可以考虑使用多重不同的方法，可以选择最适合的算法来提高准确性

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。