FreeEval: A Modular Framework for Trustworthy and Efficient Evaluation of Large Language Models
该论文介绍了FreeEval,一个模块化框架,用于对大型语言模型(LLM)进行可靠、高效的自动化评估,提供了统一的抽象、元评估模块以及高性能的推理架构,以提升评估方法的透明性、公平性和效率。
https://aclanthology.org/2024.emnlp-demo.1.pdf
摘要
近年来,大型语言模型(LLMs)评估方法和数据集的发展非常迅速,但也带来了很大的挑战:
- 如何用低成本集成先进的评估技术?
- 如何确保评估结果的可靠性、可重复性和效率?
当前缺乏一个统一且灵活的框架,可以无缝整合多种评估方法。而且,评估结果的可靠性往往因为数据污染(比如训练数据中包含测试数据)受到质疑,同时评估效率也常被忽视,因为LLM的推理成本很高。
为了解决这些问题,论文提出了 FreeEval,一个模