本文是LLM系列文章,针对《Leveraging Large Language Models for NLG Evaluation: A Survey》的翻译。
摘要
在自然语言生成(NLG)评估的快速发展领域,引入大型语言模型(LLM)为评估生成的内容质量开辟了新的途径,例如连贯性、创造力和上下文相关性。这项调查旨在全面概述利用LLM进行NLG评估的情况,这是一个缺乏系统分析的新兴领域。我们提出了一个连贯的分类法来组织现有的基于LLM的评估指标,并提供了一个结构化的框架来理解和比较这些方法。我们的详细探索包括批判性地评估各种基于LLM的方法,以及比较它们在评估NLG输出方面的优势和局限性。通过讨论尚未解决的挑战,包括偏见、稳健性、领域特异性和统一评估,本调查旨在为研究人员提供见解,并倡导更公平、更先进的NLG评估技术。
1 引言
2 形式化与分类
3 生成性评估
4 基准和任务
5 开放的问题
6 结论
在这项调查中,我们仔细调查了LLM在NLG评估中的作用。我们的综合分类法将工作分为三个主要维度:评价功能、评价参考和评