分词:提高分词准确性的考虑

中科院的ICTCLAS的分词流程为:


一、分词 "张/华/平/欢迎/您"

二、posTagging "张/q 华/j 平/j 欢迎/v 您/r"

三、NE识别:人名识别,音译名识别,地名识别 "张/q 华/j 平/j 欢迎/v 您/r" "张华平/nr"

四、重新分词:"张华平/欢迎/您"

五、重新posTagging: "张华平/nr 欢迎/v 您/r"

北航软件所BUAASEISEG的分词流程:
 

 

在流程上进一步作了优化。首先FSA处理有明显特征的项(如域名、日期等);然后ChineseDigitalFilter处理中英文数字(基数、序数、分数、小数);BigramFileter的跌代实现上述概率模型来;最后FMMFilter在已经分好的分词结果的基础上在做一次最大匹配查漏补缺(主要针对“停词”及人名)。其中,BigramFileter为核心部分,在实现是,借助于二元跌代切分的方法实现。

从中我们可以看出:


1)为了提高分词的准确性,可以综合考虑分词,词性标注,实体识别的方法

2)分词的过程的可以考虑采用循环迭代使用上述方法,即:多次拆分和合并

3)分词辞典可以用多个,另外还可能有词性标注辞典,实体辞典

4)分词中应综合考虑编码(简繁,中英及其他语言)

5)分词的对象上:对于数字,日期,百分比等等可以特殊考虑和单独处理

6)分词过程中的多个处理步骤又可以考虑使用多重不同的方法,可以选择最适合的算法来提高准确性
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值