文本生成评估指标

原创

已于 2023-10-23 22:01:31 修改 · 1.8k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习

于 2023-03-26 15:16:21 首次发布

文章介绍了评估自然语言生成任务性能的五个关键指标：Perplexity衡量语言模型的预测能力，BLEU通过n-gram重叠度评估生成质量，ROUGE关注召回率，METEOR考虑词汇、语法和语义相似度，CIDEr针对图像描述任务，而MoverScore评估语义距离。这些指标各有侧重点，适用于不同的应用场景。

1.Perplexity

Perplexity（困惑度）是衡量语言模型预测能力的指标。它是给定一个测试集后，模型为了预测该测试集上的下一个词，所需要的平均困惑度。困惑度越低，模型的预测效果越好。

公式： $2^{-\frac{1}{N}\sum_{i=1}^{N}log_2P(w_i|w_1,w_2,...,w_{i-1})}$

其中， $N$ 为测试集中的词数， $P(w_i|w_1,w_2,...,w_{i-1})$ 是给定前 $i - 1$ 个词的条件下预测第 $i$ 个词的概率。

举例：假设测试集中有100个词，我们的语言模型在预测这些词时，平均每个词的困惑度为10。则该模型的Perplexity为 $2−1100∑i=1100log2P(wi∣w1,w2,...,wi−1)=210=10242^{-\frac{1}{100}\sum_{i=1}^{100}log_2P(w_i|w_1,w_2,...,w_{i-1})} = 2^{10} = 1024$ 。