A Comparative Analysis of Large Language Models for Code Documentation Generation

最新推荐文章于 2025-11-24 18:29:32 发布

UnknownBody

最新推荐文章于 2025-11-24 18:29:32 发布

阅读量526

点赞数 9

CC 4.0 BY-SA版权

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/135651310

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

该文比较了GPT-3.5、GPT-4、Bard、Llama2和Starchat等大型语言模型在生成代码文档方面的表现。除Starchat外，所有模型在准确性、完整性等方面均优于原始文档。GPT-4在性能上领先，但生成时间最长。

本文是LLM系列文章，针对《A Comparative Analysis of Large Language Models for Code Documentation Generation》的翻译。

摘要

本文对用于生成代码文档的大型语言模型（LLM）进行了全面的比较分析。代码文档是软件编写过程的重要组成部分。本文评估了GPT-3.5、GPT-4、Bard、Llama2和Starchat等模型的各种参数，如准确性、完整性、相关性、可理解性、可读性和不同级别代码文档所需的时间。我们的评估采用了基于检查表的系统，以尽量减少主观性，提供更客观的评估。我们发现，除Starchat外，所有LLM的性能始终优于原始文档。值得注意的是，与开源/源代码可用的LLM（即LLama 2和StarChat）相比，封闭源代码模型GPT-3.5、GPT-4和Bard在各种参数上表现出优异的性能。考虑到生成所需的时间，GPT-4表现出最长的持续时间，其次是Llama2、Bard，ChatGPT和Starchat的生成时间相当。此外，与内联和函数级文档相比，文件级文档在所有参数上的性能（所花费的时间除外）都要差得多。