文章主要内容和创新点
主要内容
本文首次对8个最先进的大型语言模型(LLMs)生成高效C语言图分析程序的能力进行了系统研究,重点关注代码的效率(运行时间、内存占用)和新颖性。研究通过两种评估方法展开:
- 优化方法:让LLMs基于现有图算法代码库生成更高效的三角形计数实现,评估其是否能超越现有算法;
- 算法合成方法:在不提供现有算法代码的情况下,让LLMs生成可集成到代码库中的三角形计数、直径计算、顶点连通性等5种图算法,评估其生成“即用型”代码的能力和效率。
研究结果显示:
- Claude Sonnet 4 Extended在“即用型”代码生成和效率上表现最佳,其生成的三角形计数代码甚至超过了人类编写的基线;
- 所有LLMs均擅长优化和集成已有算法,但在发明全新技术方面表现不足;
- 部分模型(如DeepSeek R1、Gemini 2.5 Flash等)生成的代码存在功能正确性问题,被排除在深入分析之外。
创新点
- 首次系统评估LLM生成高效C语言图算法的能力:现有研究多关注Python代码或功能正确性,本文聚焦高性能计算核心语言C,填补了LLM生成代码在效率(运行时间、内存)评估上的空白。
- 严格的评估框架:通过提供具体代码库让LLMs生成可集成的代码,减少预训练数据“记忆”的干扰,更真

订阅专栏 解锁全文
852

被折叠的 条评论
为什么被折叠?



