本文是LLM系列文章,针对《Analysis of Code and Test-Code generated by Large Language Models》的翻译。
摘要
ChatGPT 和 Copilot 等大型语言模型 (LLM) 正在通过自动生成代码来改变软件开发,并且可以说可以实现快速原型设计、支持教育并提高生产力。因此,生成的代码的正确性和质量应该与手动编写的代码相当。为了评估法学硕士在生成高质量正确代码方面的现状,我们使用 ChatGPT 和 Copilot 进行了对照实验:我们让法学硕士用 Java 和 Python 生成简单的算法以及相应的单元测试,并评估正确性和质量(覆盖率) )生成的(测试)代码。我们观察到法学硕士之间、语言之间、算法和测试代码之间以及随着时间的推移存在显着差异。本文报告了这些结果以及实验方法,允许随着时间的推移对更多算法、语言和法学硕士进行重复和可比较的评估。
1 引言
2 方法
3 进行实验
4 测试结果的评估
5 讨论
6 相关工作
7 结论和未来工作
研究表明LLM可以为 Java 和 Python 生成算法和测试代码。然而,算法生成比测试用例生成要好得多。还可以说,(目前)ChatGPT 在生成正确代码方面优于 GitHub Copilot,尽管两者都生成质量优异的代码。在生成测试用例时,两种 AI 模型在测试覆盖率方面产生相似的结果,而 ChatGPT 在某些(提示)方法上表现更好。然而,就生成的测试用例的正确性而言,G
大型语言模型代码生成能力评估

订阅专栏 解锁全文
202

被折叠的 条评论
为什么被折叠?



