本文是LLM系列文章,针对《A Comparative Analysis of Large Language Models for Code Documentation Generation》的翻译。
摘要
本文对用于生成代码文档的大型语言模型(LLM)进行了全面的比较分析。代码文档是软件编写过程的重要组成部分。本文评估了GPT-3.5、GPT-4、Bard、Llama2和Starchat等模型的各种参数,如准确性、完整性、相关性、可理解性、可读性和不同级别代码文档所需的时间。我们的评估采用了基于检查表的系统,以尽量减少主观性,提供更客观的评估。我们发现,除Starchat外,所有LLM的性能始终优于原始文档。值得注意的是,与开源/源代码可用的LLM(即LLama 2和StarChat)相比,封闭源代码模型GPT-3.5、GPT-4和Bard在各种参数上表现出优异的性能。考虑到生成所需的时间,GPT-4表现出最长的持续时间,其次是Llama2、Bard,ChatGPT和Starchat的生成时间相当。此外,与内联和函数级文档相比,文件级文档在所有参数上的性能(所花费的时间除外)都要差得多。
1 引言
2 相关工作
3 方法
4 评估
5 结论
以下是我们的比较分析结果:
- 除了Starchat,与原始文档相比,所有大型语言模型(LLM)都表现出同等或卓越的性能。与原始文档相比,Starchat始终产生次优结果。
- 在我们评估准则中的大多数参数中,包括GPT-3.5、GPT-4和Bard在内的闭源模型始终优于开源模型Llama2和Starchat。值得注意的是,当考虑
该文比较了GPT-3.5、GPT-4、Bard、Llama2和Starchat等大型语言模型在生成代码文档方面的表现。除Starchat外,所有模型在准确性、完整性等方面均优于原始文档。GPT-4在性能上领先,但生成时间最长。
已下架不支持订阅
682

被折叠的 条评论
为什么被折叠?



