Evaluating Efficiency and Novelty of LLM-Generated Code for Graph Analysis

文章主要内容和创新点

主要内容

本文首次对8个最先进的大型语言模型(LLMs)生成高效C语言图分析程序的能力进行了系统研究,重点关注代码的效率(运行时间、内存占用)和新颖性。研究通过两种评估方法展开:

  1. 优化方法:让LLMs基于现有图算法代码库生成更高效的三角形计数实现,评估其是否能超越现有算法;
  2. 算法合成方法:在不提供现有算法代码的情况下,让LLMs生成可集成到代码库中的三角形计数、直径计算、顶点连通性等5种图算法,评估其生成“即用型”代码的能力和效率。

研究结果显示:

  • Claude Sonnet 4 Extended在“即用型”代码生成和效率上表现最佳,其生成的三角形计数代码甚至超过了人类编写的基线;
  • 所有LLMs均擅长优化和集成已有算法,但在发明全新技术方面表现不足;
  • 部分模型(如DeepSeek R1、Gemini 2.5 Flash等)生成的代码存在功能正确性问题,被排除在深入分析之外。
创新点
  1. 首次系统评估LLM生成高效C语言图算法的能力:现有研究多关注Python代码或功能正确性,本文聚焦高性能计算核心语言C,填补了LLM生成代码在效率(运行时间、内存)评估上的空白。
  2. 严格的评估框架:通过提供具体代码库让LLMs生成可集成的代码,减少预训练数据“记忆”的干扰,更真
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值