本文是LLM系列文章,针对《ERBENCH: AN ENTITY-RELATIONSHIP BASED AUTOMATICALLY VERIFIABLE HALLUCINATION BENCHMARK FOR LARGE LANGUAGE MODELS》的翻译。
摘要
大型语言模型(LLM)在各种应用程序中取得了前所未有的性能,但其评估仍然是一个关键问题。现有的幻觉基准要么是静态的,要么缺乏可调整的复杂性来进行彻底的分析。我们认为,利用现有的关系数据库是一种很有前途的构建基准的方法,因为它们通过函数依赖关系进行了准确的知识描述。我们建议ERBench自动将任何关系数据库转换为基于实体关系(ER)模型的基准。我们的关键思想是使用数据库模式、记录和功能依赖关系来构建问题,以便可以自动验证这些问题。此外,我们使用外键约束来连接关系并构造多跳问题,这些问题可以是任意复杂的,并用于调试LLM的中间答案。最后,ERBench支持连续评估、多模态问题和各种提示工程技术。在我们的实验中,我们使用多个领域的数据库构建了LLM基准,并对当代LLM进行了广泛的比较。我们观察到,像GPT-4这样更好的LLM可以处理更广泛的问题类型,但绝非完美。此外,正确的答案并不一定意味着正确的理由,这是一个重要的评估,ERBench在各种问题类型上比其他基准做得更好。代码在https://github.com/DILAB-KAIST/ERBench可用。
1 引言
2 前言
3 ERBench
4 实验
5 相关工作
6 结论
我们提出
ERBench:LLM的自动可验证幻觉基准

ERBench是一个基于实体关系的自动可验证基准,用于评估大型语言模型(LLM)。它将关系数据库转换为基准,通过功能依赖关系自动验证问题,并利用外键约束构造复杂问题。实验表明,虽然更好的LLM如GPT-4能处理更多问题,但仍存在错误。ERBench提供了一个全面的评估工具,代码已公开。
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



