Analysis of Code and Test-Code generated by Large Language Models

大型语言模型代码生成能力评估

本文是LLM系列文章,针对《Analysis of Code and Test-Code generated by Large Language Models》的翻译。

摘要

ChatGPT 和 Copilot 等大型语言模型 (LLM) 正在通过自动生成代码来改变软件开发,并且可以说可以实现快速原型设计、支持教育并提高生产力。因此,生成的代码的正确性和质量应该与手动编写的代码相当。为了评估法学硕士在生成高质量正确代码方面的现状,我们使用 ChatGPT 和 Copilot 进行了对照实验:我们让法学硕士用 Java 和 Python 生成简单的算法以及相应的单元测试,并评估正确性和质量(覆盖率) )生成的(测试)代码。我们观察到法学硕士之间、语言之间、算法和测试代码之间以及随着时间的推移存在显着差异。本文报告了这些结果以及实验方法,允许随着时间的推移对更多算法、语言和法学硕士进行重复和可比较的评估。

1 引言

2 方法

3 进行实验

4 测试结果的评估

5 讨论

6 相关工作

7 结论和未来工作

研究表明LLM可以为 Java 和 Python 生成算法和测试代码。然而,算法生成比测试用例生成要好得多。还可以说,(目前)ChatGPT 在生成正确代码方面优于 GitHub Copilot,尽管两者都生成质量优异的代码。在生成测试用例时,两种 AI 模型在测试覆盖率方面产生相似的结果,而 ChatGPT 在某些(提示)方法上表现更好。然而,就生成的测试用例的正确性而言,G

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值