自动文摘评测方法:Rouge-1、Rouge-2、Rouge-L、Rouge-S

ROUGE是一种用于评估自动摘要质量的指标,通过比较系统生成摘要与标准摘要的n元词共现,衡量召回率。包括ROUGE-N、ROUGE-L等多种形式,广泛应用于自然语言处理领域。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

关于ROUGE

ROUGE(Recall-Oriented Understudy for Gisting Evaluation),在2004年由ISI的Chin-Yew Lin提出的一种自动摘要评价方法,是评估自动文摘以及机器翻译的一组指标。

ROUGE基于摘要中n元词(n-gram)的共现信息来评价摘要,是一种面向n元词召回率的评价方法。基本思想为由多个专家分别生成人工摘要,构成标准摘要集,将系统生成的自动摘要与人工生成的标准摘要相对比,通过统计二者之间重叠的基本单元(n元语法、词序列和词对)的数目,来评价摘要的质量。通过与专家人工摘要的对比,提高评价系统的稳定性和健壮性。

ROUGE准则由一系列的评价方法组成,包括ROUGE-N(N是n-gram中n,取值有1,2,3,4),ROUGE-L,ROUGE-S, ROUGE-W,ROUGE-SU等。在自动文摘相关研究中,一般根据自己的具体研究内容选择合适的ROUGE方法。

ROUGE-N

ROUGE-N在Chin-Yew Lin的论文中是这样定义的:
在这里插入图片描述
分母是人工摘要(也就是标准摘要)中n-gram的个数,分子是人工摘要和机器生成的自动摘要共现(重合)的n-gram的个数。可以看出,ROUGE与召回率的定义很相似。

举例:

机器生成的自动摘要:
the cat was found under the bed
人工生成的标准摘要:
the cat was under the bed

如果我们只考虑单个单词,自动摘要和标准摘要之间的重叠单词数量为6。但是,这并不能作为度量标准。为了获得良好的定量值,我们实际上可以使用二者共线的n-gram数来计算精度和召回率。

ROUGE背景下的精度与召回

上面的例子中,ROUGE-1的值可以很容易计算出来,为 6666 6 6 6666 {6 \over 6} 666666Rlcs,与上文所说的一般只考虑召回率对应。

优点

使用LCS的一个优点是它不需要连续匹配,而且反映了句子级词序的顺序匹配。由于它自动包含最长的顺序通用n-gram,因此您不需要预定义的n-gram长度。

缺点

只计算一个最长子序列,最终的值忽略了其他备选的最长子序列及较短子序列的影响。

应用场景

单文档摘要;短摘要评估。

Rouge-S

使用了skip-grams,在参考摘要和待评测摘要进行匹配时,不要求gram之间必须是连续的,可以“跳过”几个单词,比如skip-bigram,在产生grams时,允许最多跳过两个词。比如“cat in the hat”的 skip-bigrams 就是 “cat in, cat the, cat hat, in the, in hat, the hat”。

优点

考虑了所有按词序排列的词对,比n-gram模型更深入反映句子级词序。

缺点

若不设定最大跳跃词数会出现很多无意义词对。若设定最大跳跃词数,需要指定最大跳跃词数的值。

应用场景

单文档摘要;ROUGE-S4,ROUGE-S9: 多文档摘要(去停用词条件);

参考
https://blog.youkuaiyun.com/qq_25222361/article/details/78694617
https://blog.youkuaiyun.com/lcj369387335/article/details/69845385
http://text-analytics101.rxnlp.com/2017/01/how-rouge-works-for-evaluation-of.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值