将文本的分词结果用许多数值对来表示。每一对数字对应一个词,表示词的首字和末字在文本中的位置。
例如有一个字符串文本:
万人大会堂今晚座无虚席
字符串中每个字符的索引分别为:
0 1 2 3 4 5 6 7 8 9 10
标准分词结果如下:
万|人|大会堂|今晚|座无虚席
我们分词结果用一个个数值对来表示(根据每个词在字符串中的索引顺序):
(0,0) (1,1) (2,4) (5,6) (7,10)
这样通过比较 标准分词结果 和 测试分词结果 的数值对的重合情况,就能计算出测试分词结果的正确分词数。从而计算出准确率和召回率。
准确率和召回率计算方法如下:

例如:
若正向最大匹配分词结果为 万 | 人大 | 会堂 | 今晚 | 座无虚席
得到数值对 &n

本文介绍了如何使用准确率和召回率来评估中文分词的性能。通过对文本的分词结果进行数值对表示,并与标准分词结果对比,计算出正确分词数,从而计算准确率和召回率。以万人大会堂为例,展示了正向和逆向最大匹配分词方法的计算过程。
最低0.47元/天 解锁文章
3386

被折叠的 条评论
为什么被折叠?



