本文是LLM系列文章,针对《TreeEval: Benchmark-Free Evaluation of Large Language Models through Tree Planning》的翻译。
摘要
最近,已经建立了许多新的基准,通过计算整体得分或使用另一个LLM作为评判来评估大型语言模型(LLM)的性能。然而,由于基准的开放访问和不灵活的评估过程,这些方法存在数据泄露的问题。为了解决这个问题,我们引入了TreeEval,这是一种LLM的无基准评估方法,它可以让高性能LLM主持不可复制的评估会话,并从根本上避免数据泄露。此外,该LLM作为审查员,以树规划策略在一个主题下提出一系列问题,考虑当前评估状态来决定下一个问题生成,并确保评估过程的完整性和效率。我们评估了6个不同参数大小的模型,包括7B、13B和33B,最终仅使用约45个问题就获得了AlpacaEval2.0的最高相关系数。我们还进行了更多的分析,以显示TreeEval的稳健性和可靠性。我们的代码可以通过提供的URL访问。
1 引言
2 相关工作
3 方法
4 实验
5 结论
在本文中,我们介绍了TreeEval,这是一种用于具有树规划的LLM的无基准评估方法,它可以通过树规划自动控制评估过程。我们通过实验验证了TreeEva

TreeEval是一种避免数据泄露的无基准评估大型语言模型(LLM)的方法,采用树规划策略,由LLM本身主持评估会话,确保评估的完整性和效率。在不依赖现有基准的情况下,通过45个左右的问题,TreeEval在不同规模的模型中展示了高相关性,并证实其可靠性和稳健性。
订阅专栏 解锁全文
140

被折叠的 条评论
为什么被折叠?



