Exploring the Impact of the Output Format on the Evaluation of Large Language Models

最新推荐文章于 2025-12-12 17:54:27 发布

UnknownBody

最新推荐文章于 2025-12-12 17:54:27 发布

阅读量230

点赞数 4

CC 4.0 BY-SA版权

分类专栏： LLM Daily LLM for code LLM Evaluation 文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/139849340

LLM Daily 同时被 3 个专栏收录

1732 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

97 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

58 篇文章

订阅专栏

本文是LLM系列文章，针对《Exploring the Impact of the Output Format on the Evaluation of
Large Language Models for Code Translation》的翻译。

探讨输出格式对代码翻译大型语言模型评价的影响

摘要
1 引言
2 背景和相关工作
3 研究设置
4 RQ1：LLM和提示的输出格式有什么特点？
5 RQ2：使用提示工程和轻量级后处理可以在多大程度上控制LLM的输出格式？
6 RQ3：输出控制对LLM报告性能的影响是什么？
7 讨论
8 对有效性的威胁
9 结论

摘要

编程语言之间的代码翻译是软件工程中一项长期存在的关键任务，有助于传统系统的现代化，确保跨平台兼容性，并提高软件性能。随着大型语言模型（LLM）及其在代码翻译中的应用的最新进展，人们越来越需要对这些模型进行全面评估。在这项研究中，我们在五种语言（包括C、C++、Go、Java和Python）的3820个翻译对上实证分析了11个流行的指令调整LLM的生成输出，参数范围从1B到46.7B。我们的分析发现，由我们评估的LLM生成的代码翻译中，26.4%至73.7%需要进行后处理，因为这些翻译通常包括代码、引号和文本的混合，而不是纯粹的源代码。忽略这些模型的输出格式可能会无意中导致低估其实际性能。当使用基于执行的指标（如计算精度（CA））对其进行评估时，这一点尤其明显。我们的结果表明，提示工程和正则表达式的战略组合可以有效地从模型生成输出中提取源代码。特别是，我们的方法可以帮助11个选定的模型实现92.73%的平均代码提取成功率。我们的研究结果揭示并激励了未来的研究，为代码翻译提供更可靠的LLM基准。

1 引言

2 背景和相关工作

3 研究设置

4 RQ1：LLM和提示的输出格式有什么特点？

5 RQ2：使用提示工程和轻量级后处理可以在多大程度上控制LLM的输出格式？

6 RQ3：输出控制对LLM报告性能的影响是什么？

了解本专栏

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。