文本摘要评估与模型训练:从ROUGE指标到PEGASUS微调
1. 文本评估指标概述
在文本评估领域,BLEU分数广泛用于评估文本,特别是在机器翻译中,因为精确的翻译通常比包含所有可能和适当单词的翻译更受青睐。然而,在文本摘要等应用中,情况有所不同,我们更希望生成的文本包含所有重要信息,因此更看重高召回率,这就是ROUGE分数通常被使用的场景。
2. ROUGE分数详解
ROUGE分数是专门为像文本摘要这样高召回率比精确率更重要的应用而开发的。它的方法与BLEU分数类似,都是查看不同的n - 元组,并比较它们在生成文本和参考文本中的出现情况。不同之处在于,ROUGE检查参考文本中有多少n - 元组也出现在生成文本中,而BLEU则查看生成文本中有多少n - 元组出现在参考文本中。
原始的ROUGE - N公式为:
[ROUGE - N=\frac{\sum_{snt’ \in C}\sum_{n - gram \in snt’}{Count_{match}(n - gram)}}{\sum_{snt’ \in C}\sum_{n - gram \in snt’}{Count(n - gram)}}]
后来,研究人员发现完全去除精确率会有很强的负面影响。因此,可以回到未进行裁剪计数的BLEU公式来测量精确率,然后将精确率和召回率的ROUGE分数通过调和平均结合得到F1分数,这也是如今ROUGE常用的度量指标。
此外,ROUGE还有一个单独的分数来测量最长公共子串(LCS),称为ROUGE - L。LCS可以为任意一对字符串计算,例如“abab”和“abc”的LCS是“ab”,长度为2。为了在不同样本之间比较这个
超级会员免费看
订阅专栏 解锁全文
46

被折叠的 条评论
为什么被折叠?



