论文翻译：ACL-2024 KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language

CSPhD-winston-杨帆

已于 2024-11-14 14:14:27 修改

阅读量1k

点赞数 5

CC 4.0 BY-SA版权

分类专栏： LLMs-数据污染论文翻译文章标签：语言模型人工智能自然语言处理

于 2024-09-07 21:06:22 首次发布

本文链接：https://blog.youkuaiyun.com/WhiffeYF/article/details/142004204

论文翻译同时被 2 个专栏收录

114 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

LLMs-数据污染

61 篇文章

订阅专栏

KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models
https://arxiv.org/abs/2402.15043

b站：https://www.bilibili.com/video/BV1s1D1YqEBU

PPT：https://share.weiyun.com/q4PbssZP

KIEval：面向大型语言模型的知识基础交互式评估框架

摘要

大型语言模型（LLMs）的自动评估方法受到数据污染的阻碍，导致对它们有效性的评估过高。现有的策略，旨在检测污染文本，专注于量化污染状态，而不是准确衡量模型性能。在本文中，我们介绍了KIEval，一个知识基础的交互式评估框架，首次引入了一个由LLM驱动的“交互者”角色，以实现动态的、抗污染的评估。
从涉及特定领域知识的常规LLM基准测试中的问题开始，KIEval利用动态生成的、多轮次的、知识集中的对话来确定模型的回应是否仅仅是对基准答案的回忆，还是展示了在更复杂对话中应用知识的深层理解。
在五个数据集上的七个领先LLMs的广泛实验验证了KIEval的有效性和泛化能力。我们还揭示了数据污染对模型的实际应用性和理解没有贡献，甚至可能产生负面影响，现有的LLMs数据污染检测方法只能在预训练期间识别污染，而不能在监督微调期间识别。

https://github.com/zhuohaoyu/KIEval