分词技术杂记

1. "切分标志字串"预处理方法是一个毫无必要的技术,它增加了一遍扫描"切分标志词典"的时空复杂性,却并没有提高分词精度,因为所谓的切分标志其实都已经隐含在词典之中,是对词典功能的重复。实际上"切分标志"也没有标记歧义字段的任何信息。

2. 词性分词一体化:存在词的兼类问题和规则集的确定问题。

3. 未登录词的介入会引起新的切分歧义,从而使分词系统所面临的形势更加复杂化。Sun M.S. and Shen D.Y., et al. (1997)  将切分歧义明确地细分为:1)普通词与普通词之间的切分歧义(第 2.1 节);2)普通词与未登录词之间的切分歧义;3)未登录词与未登录词之间的切分歧义。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值