16、文本摘要与问答系统：模型评估与应用探索

zero1

于 2025-09-20 13:30:26 发布

阅读量19

点赞数

CC 4.0 BY-SA版权

分类专栏：解密Transformer：从理论到实践文章标签：文本摘要问答系统 ROUGE分数

本文链接：https://blog.youkuaiyun.com/zero1/article/details/152595771

32 篇文章 ¥499.90

订阅专栏¥69.90

在文本摘要任务中，模型的评估至关重要。通过计算 ROUGE 分数，我们可以直观地了解模型的性能。以下是计算 ROUGE 分数并创建 DataFrame 的代码：

rouge_dict = dict((rn, score[rn].mid.fmeasure) for rn in rouge_names)
pd.DataFrame(rouge_dict, index=[f"pegasus"])

得到的结果如下：
| | rouge1 | rouge2 | rougeL | rougeLsum |
| — | — | — | — | — |
| pegasus | 0.427614 | 0.200571 | 0.340648 | 0.340738 |

从这些 ROUGE 分数可以看出，经过微调的模型相比未微调的模型有了显著提升。这表明之前的模型虽然也经过了摘要任务的训练，但并不完全适用于新的领域。接下来，我们可以将训练好的模型推送到 Hub：

trainer.push_to_hub("Training complete!")

在训练过程中，我们还可以对生成的内容进行评估。具体操作步骤如下：
1. 使用 Seq2SeqTrainingArguments 扩展 TrainingArguments ，并指定