TreeEval: Benchmark-Free Evaluation of Large Language Models through Tree Planning

828 篇文章

已下架不支持订阅

TreeEval是一种避免数据泄露的无基准评估大型语言模型(LLM)的方法,采用树规划策略,由LLM本身主持评估会话,确保评估的完整性和效率。在不依赖现有基准的情况下,通过45个左右的问题,TreeEval在不同规模的模型中展示了高相关性,并证实其可靠性和稳健性。

本文是LLM系列文章,针对《TreeEval: Benchmark-Free Evaluation of Large Language Models through Tree Planning》的翻译。

TreeEval:通过树规划对大型语言模型进行无基准评估

摘要

最近,已经建立了许多新的基准,通过计算整体得分或使用另一个LLM作为评判来评估大型语言模型(LLM)的性能。然而,由于基准的开放访问和不灵活的评估过程,这些方法存在数据泄露的问题。为了解决这个问题,我们引入了TreeEval,这是一种LLM的无基准评估方法,它可以让高性能LLM主持不可复制的评估会话,并从根本上避免数据泄露。此外,该LLM作为审查员,以树规划策略在一个主题下提出一系列问题,考虑当前评估状态来决定下一个问题生成,并确保评估过程的完整性和效率。我们评估了6个不同参数大小的模型,包括7B、13B和33B,最终仅使用约45个问题就获得了AlpacaEval2.0的最高相关系数。我们还进行了更多的分析,以显示TreeEval的稳健性和可靠性。我们的代码可以通过提供的URL访问。

1 引言

2 相关工作

3 方法

4 实验

5 结论

在本文中,我们介绍了TreeEval,这是一种用于具有树规划的LLM的无基准评估方法,它可以通过树规划自动控制评估过程。我们通过实验验证了TreeEva

<think>好的,用户想了解如何匹配androidx.benchmark:benchmark-macro的版本。我需要先确定用户的使用场景。他们可能是在进行Android应用的性能测试,特别是使用Macrobenchmark库来测量启动时间、滚动性能等宏观指标。接下来,用户可能是开发者,遇到了依赖版本的问题,或者想确保他们使用的版本与其他库兼容。 我需要先检查最新的稳定版本,以及对应的Gradle配置。记得要提到需要Android Gradle Plugin的版本要求,比如AGP 7.0.0或更高,以及JDK 11的要求。另外,用户可能需要知道如何将插件应用到模块,和如何配置基准模块的build.gradle文件。 可能用户遇到的问题包括版本冲突,或者不知道如何正确设置基准配置文件。因此,要详细说明依赖项的添加位置,比如在benchmark模块中使用androidTestImplementation,并确保在defaultConfig中设置正确的签名配置。 还要提醒用户关于运行测试时的注意事项,比如在物理设备上运行,关闭节能模式等。最后,需要确认提供的代码示例是否正确,并参考官方文档以确保信息的准确性。</think>要匹配 `androidx.benchmark:benchmark-macro` 的版本,需结合你的 Android Gradle 插件(AGP)版本和项目配置。以下是关键信息和使用方法: --- ### **最新稳定版本(截至2024年7月)** - **最新版本**: `1.2.2` - **依赖声明**: ```gradle androidTestImplementation "androidx.benchmark:benchmark-macro-junit4:1.2.2" ``` --- ### **版本匹配要求**
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值