现有的中文分词方法基本上都是采用基于词表的正向最大匹配法进行词语切分。不过这种分词方法具有一个最大的问题,对于未登录词(也就是在词表中并未录入的词)的切分具有先天的不足,一般的解决方法是在基于正向最大匹配法切分模块后再加入一个未登录词模块,用于处理对于未登录词的切分。而在中文分词技术中,对于未登录词的切分错误极大的影响到了整体分词的召回率。现在主流的分词算法对于未登录词的召回率仍然在0.6 左右。
最新的一种分词算法叫做“由字构词”的分词方法,关于“由字构词”分词方法的最早的一篇论文发表……
最新的一种中文分词方式――由字构词
最新推荐文章于 2025-11-24 15:27:16 发布
本文探讨了基于词表的正向最大匹配法在中文分词中的应用及其对未登录词处理的局限性。介绍了‘由字构词’这一新型分词方法,并讨论了其在提高未登录词召回率方面的潜力。
6969

被折叠的 条评论
为什么被折叠?



