ML-BENCH: LARGE LANGUAGE MODELS LEVERAGE OPEN-SOURCE LIBRARIES FOR MACHINE LEARNING TASKS

ML-BENCH：大型语言模型如何利用开源库进行机器学习

最新推荐文章于 2025-11-25 12:20:36 发布

UnknownBody

最新推荐文章于 2025-11-25 12:20:36 发布

阅读量1k

点赞数 23

CC 4.0 BY-SA版权

文章标签：语言模型机器学习人工智能

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/135496581

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

ML-BENCH是评估大型语言模型（LLM）利用开源库完成机器学习任务的新基准。它包含10040个样本和130个任务，测试LLM理解和生成复杂代码的能力。尽管GPT-4表现优于其他LLM，但仅完成39.73%的任务。为此，提出了ML-AGENT，它能有效导航、定位和生成代码，提高性能。然而，研究受限于语言、数据源和方法论的局限性，如只关注英语和依赖预构建的机器学习包。

本文是LLM系列文章，针对《ML-BENCH: LARGE LANGUAGE MODELS LEVERAGE OPEN-SOURCE LIBRARIES FOR MACHINE LEARNING TASKS》的翻译。

摘要

大型语言模型在代码生成基准测试中显示出了良好的性能。然而，这些基准测试成果与其实际应用性之间存在着相当大的差距，这主要归因于现实世界中编程对预先存在的库的依赖。这项工作旨在提出一种新的评估设置，LLM使用开源库来完成机器学习任务，而不是从头开始评估LLM的代码。因此，我们提出了ML-BENCH，这是一个扩展的基准，旨在评估LLM在利用开源库中现有功能方面的有效性。由10040个样本组成，跨越14个著名的机器学习GitHub存储库中的130个任务。在这种设置中，给定特定的机器学习任务指令和代码库中附带的README，LLM的任务是生成代码来完成任务。这就需要理解长文档和语言代码交织的文档，以及理解复杂的跨文件代码结构，从而带来新的挑战。值得注意的是，尽管GPT-4比其他LLM表现出显著的改进，但它只能完成39.73%的任务，留下了巨大的改进空间。我们通过提出ML-AGENT来解决这些挑战，该技术旨在有效地导航代码库、定位文档、检索代码和生成可执行代码。经验结果表明，ML-AGENT，建立在GPT-4的基础上，导致了进一步的改进。代码、数据和模型可在https://ml-bench.github.io/找到。