15、文本摘要评估与模型训练:从ROUGE指标到PEGASUS微调

文本摘要评估与模型训练:从ROUGE指标到PEGASUS微调

1. 文本评估指标概述

在文本评估领域,BLEU分数广泛用于评估文本,特别是在机器翻译中,因为精确的翻译通常比包含所有可能和适当单词的翻译更受青睐。然而,在文本摘要等应用中,情况有所不同,我们更希望生成的文本包含所有重要信息,因此更看重高召回率,这就是ROUGE分数通常被使用的场景。

2. ROUGE分数详解

ROUGE分数是专门为像文本摘要这样高召回率比精确率更重要的应用而开发的。它的方法与BLEU分数类似,都是查看不同的n - 元组,并比较它们在生成文本和参考文本中的出现情况。不同之处在于,ROUGE检查参考文本中有多少n - 元组也出现在生成文本中,而BLEU则查看生成文本中有多少n - 元组出现在参考文本中。

原始的ROUGE - N公式为:
[ROUGE - N=\frac{\sum_{snt’ \in C}\sum_{n - gram \in snt’}{Count_{match}(n - gram)}}{\sum_{snt’ \in C}\sum_{n - gram \in snt’}{Count(n - gram)}}]

后来,研究人员发现完全去除精确率会有很强的负面影响。因此,可以回到未进行裁剪计数的BLEU公式来测量精确率,然后将精确率和召回率的ROUGE分数通过调和平均结合得到F1分数,这也是如今ROUGE常用的度量指标。

此外,ROUGE还有一个单独的分数来测量最长公共子串(LCS),称为ROUGE - L。LCS可以为任意一对字符串计算,例如“abab”和“abc”的LCS是“ab”,长度为2。为了在不同样本之间比较这个

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值