mle-bench:机器学习工程能力评估的全新基准

mle-bench:机器学习工程能力评估的全新基准

mle-bench MLE-bench is a benchmark for measuring how well AI agents perform at machine learning engineering mle-bench 项目地址: https://gitcode.com/gh_mirrors/ml/mle-bench

项目介绍

MLE-bench是一个开源项目,旨在评估机器学习Agent在机器学习工程(MLE)任务上的表现。该项目是论文《MLE-Bench: Evaluating Machine Learning Agents on Machine Learning Engineering》的代码实现,包含了构建数据集、评估逻辑以及论文中评估的多个Agent。MLE-bench通过一系列Kaggle竞赛数据集,为机器学习工程领域提供了一个标准化的评估框架。

项目技术分析

MLE-bench的核心是一个包含75个Kaggle竞赛的数据集,这些竞赛涵盖了图像分类、文本分类、音频分类、表格数据预测等多种机器学习任务。项目提供了准备数据集、评估Agent提交的CSV格式预测结果以及构建运行Agent所需环境的工具。

项目采用Python编写,并使用了Docker来构建运行环境,确保了Agent在不同系统上的一致性。此外,项目还提供了用于检测规则违规和抄袭的额外工具,确保评估的公正性和准确性。

项目技术应用场景

MLE-bench的应用场景非常广泛,它可以用于以下几个方面:

  1. Agent性能评估:通过在标准化的数据集上评估,可以比较不同Agent的性能。
  2. 研究辅助:研究人员可以利用这个基准来研究机器学习工程的各个方面,例如Agent的资源利用效率、性能稳定性等。
  3. 教育工具:作为教学工具,MLE-bench可以帮助学生和从业者了解机器学习工程的实际应用。
  4. 开发测试:开发人员可以使用MLE-bench来测试和优化他们的机器学习模型。

项目特点

  1. 标准化评估:MLE-bench提供了一个标准化的评估框架,有助于公平比较不同Agent的能力。
  2. 灵活性:项目支持使用“lite”版本的数据集,仅包含22个竞赛,以减少运行时间和计算资源的需求。
  3. 易于部署:使用Docker环境,可以轻松地在不同系统上部署和运行Agent。
  4. 丰富的数据集:涵盖了多种类型的机器学习任务,提供了全面评估Agent性能的机会。
  5. 开源性:作为开源项目,MLE-bench鼓励社区贡献和反馈,以不断改进评估框架。

以下是一个表格,展示了不同Agent在不同复杂度级别上的表现:

| Agent | 低复杂度 (%) | 中等复杂度 (%) | 高复杂度 (%) | 所有复杂度 (%) | |------------------------|--------------|----------------|--------------|----------------| | AIDE o1-preview | 34.3 ± 2.4 | 8.8 ± 1.1 | 10.0 ± 1.9 | 16.9 ± 1.1 | | AIDE gpt-4o-2024-08-06 | 19.0 ± 1.3 | 3.2 ± 0.5 | 5.6 ± 1.0 | 8.6 ± 0.5 | | AIDE claude-3-5-sonnet-20240620 | 19.4 ± 49 | 2.6 ± 1.5 | 2.3 ± 2.3 | 7.5 ± 1.8 | | ... | ... | ... | ... | ... |

通过使用MLE-bench,研究人员和开发者可以更深入地了解机器学习Agent在真实世界工程任务中的表现,从而推动机器学习技术的进步和应用。如果您对机器学习工程感兴趣,欢迎使用并贡献到MLE-bench项目。

mle-bench MLE-bench is a benchmark for measuring how well AI agents perform at machine learning engineering mle-bench 项目地址: https://gitcode.com/gh_mirrors/ml/mle-bench

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

崔锴业Wolf

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值