自动文摘评测方法:Rouge-L、Rouge-N

本文深入解析Rouge-L和BLEU-4两种文本相似度评价指标,重点阐述它们在自动文摘和机器翻译领域的应用。通过对比自动生成与人工摘要,Rouge-L利用最长公共子序列计算相似度,而BLEU-4则关注n-gram的匹配度,两者共同构成全面的评价体系。

Rouge-L 的初认识

本人参加百度机器阅读理解比赛,发现阅读理解比赛的评价标注,以Rouge-L为主,若 Rouge-L相同的 话,则看 BLEU-4。由此可见,Rough-L 作为自动文摘评测方法是特别有用的,接下来我讲解一下。

Rouge-L 论文:

https://www.aclweb.org/anthology/W04-1013

BLEU-4 的学习,可以看我的另一篇博客,有助于理解Rouge-N:

https://blog.youkuaiyun.com/ding_programmer/article/details/89740078

 

什么是Rouge呢?

Rouge(Recall-Oriented Understudy for Gisting Evaluation),是评估自动文摘以及机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要(通常是人工生成的)进行比较计算,得出相应的分值,以衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。

 

Rouge-N


Rouge-1、Rouge-2、Rouge-N

 

ROUGE-N=\frac{\sum\limits_{S\in \{ReferenceSummaries\} }\ \sum\limits_{gram_n \in S}Count_{match}(gram_n)}{\sum\limits_{S\in \{ReferenceSummaries\} }\ \sum\limits_{gram_n \in S}Count(gram_n)}

分母是n-gram的个数,分子是参考摘要和自动摘要共有的n-gram的个数。直接借用文章[2]中的例子说明一下:
自动摘要YY(一般是自动生成的):

the cat was found under the bed

参考摘要(标准答案),X1X1(gold standard ,人工生成的):

the cat was under the bed

summary的1-gram、2-gram如下,N-gram以此类推:

 

Rouge-1=(X1,Y)=\frac{6}{6}=1

分子是待评测摘要和参考摘要都出现的1-gram的个数,分子是参考摘要的1-gram个数。(其实分母也可以是待评测摘要的,但是在精确率和召回率之间,我们更关心的是召回率Recall,同时这也和上面ROUGN-N的公式相同)


同样,Rouge-2=(X1,Y)=\frac{4}{5}=0.8

 

Rouge-L

L即是LCS(longest common subsequence,最长公共子序列)的首字母,因为Rouge-L使用了最长公共子序列。Rouge-L计算方式如下图:

\large R_{lcs}=\frac{LCS(X,Y)}{m}

 

\large P_{lcs}=\frac{LCS(X,Y)}{n}

 

\large F_{lcs}=\frac{(1+\beta^2)R_{lcs}P_{lcs}}{R_{lcs}+\beta^2 P_{lcs}}

 

其中 \large LCS(X,Y)   是X和Y的最长公共子序列的长度,考虑顺序。     \large m,n  分别表示参考摘要(人工摘要)和 自动摘要(机器生成的摘要)的长度(一般就是所含词的个数)

\large R_{lcs} \ P_{lcs} 分别表示召回率和准确率。最后的 \large F_{lcs}​即是我们所说的Rouge-L。

 

对于什么是召回率、什么是准确率,F-measure 可以看我的另一篇博客:

https://blog.youkuaiyun.com/ding_programmer/article/details/89740668

 

当   \large \beta    很大的时候               \large F_{lcs}=\frac{R_{lcs}P_{lcs}}{\frac{R_{lcs}}{(1+\beta^2)}\ +\ \frac{\beta^2P_{lcs}}{(1+\beta^2)}}=\frac{R_{lcs}P_{lcs}}{0\ + \ P_{lcs}}=R_{lcs}

 

所以 当,\large \beta   被设置为一个很大的数,所以 Rouge_L几乎只考虑了\large R_{lcs}​,与上文所说的一般只考虑召回率对应。

 

参考文献:

https://blog.youkuaiyun.com/qq_25222361/article/details/78694617#t2

https://www.aclweb.org/anthology/W04-1013

 

 

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)和 BLEU(Bilingual Evaluation Understudy)是自然语言处理中常用的评估指标,用于衡量生成文本与参考文本之间的相似度。以下是对这些指标值的具体分析: ### ROUGE - 1(36.83%) ROUGE - 1 是基于一元词组(unigram)计算的召回率,它衡量了生成文本中一元词组出现在参考文本中的比例。36.83% 的 ROUGE - 1 得分表明,生成文本中约有 36.83% 的一元词组也出现在了参考文本中。这个得分反映了生成文本在单个词汇层面上与参考文本的重合程度。相对来说,该得分有一定的重合度,但还有较大的提升空间,说明生成文本在词汇选择上与参考文本有部分一致,但仍有很多不同的表达。 ### ROUGE - 2(14.35%) ROUGE - 2 是基于二元词组(bigram)计算的召回率,它关注的是生成文本中连续的两个词组成的词组在参考文本中出现的比例。14.35% 的 ROUGE - 2 得分相对较低,意味着生成文本中只有约 14.35% 的二元词组与参考文本相同。这表明生成文本在短语层面上与参考文本的重合度不高,可能在句子结构、词汇搭配等方面与参考文本存在较大差异。 ### ROUGE - L(14.4%) ROUGE - L 考虑了生成文本和参考文本之间的最长公共子序列(LCS),它综合考虑了词汇的顺序和连续性。14.4% 的 ROUGE - L 得分说明生成文本和参考文本之间的最长公共子序列占参考文本的比例约为 14.4%。这个指标更注重文本的整体连贯性和句子结构的相似性,较低的得分表示生成文本在整体结构和连贯性上与参考文本有较大差距。 ### BLEU - 4(6.91%) BLEU - 4 是基于 4 - 元词组(4 - gram)的 BLEU 指标,它通过计算生成文本中 4 - 元词组在参考文本中出现的比例来评估生成文本的质量。6.91% 的 BLEU - 4 得分非常低,说明生成文本中连续的四个词组成的词组很少出现在参考文本中,反映出生成文本在长距离的词汇搭配和语义表达上与参考文本差异较大。 综合来看,这些指标值表明当前的训练效果不太理想。生成文本在词汇、短语、句子结构和整体连贯性等方面与参考文本都存在较大差距,需要进一步优化模型的训练过程,例如调整模型架构、增加训练数据、优化训练参数等,以提高生成文本的质量。 ```python # 示例代码,展示如何使用 ROUGE 和 BLEU 指标进行评估 from rouge import Rouge from nltk.translate.bleu_score import sentence_bleu # 假设参考文本和生成文本 reference = "这是一个测试句子" candidate = "这是另一个测试句子" # 计算 ROUGE 指标 rouge = Rouge() rouge_scores = rouge.get_scores(candidate, reference, avg=True) print("ROUGE 指标:", rouge_scores) # 计算 BLEU - 4 指标 reference_tokens = [reference.split()] candidate_tokens = candidate.split() bleu_4_score = sentence_bleu(reference_tokens, candidate_tokens, weights=(0.25, 0.25, 0.25, 0.25)) print("BLEU - 4 指标:", bleu_4_score) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值