本文是LLM系列文章,针对《Executing Natural Language-Described Algorithms with Large Language Models: An Investigation》的翻译。
摘要
执行用自然语言描述的计算机程序一直是计算机科学的追求。随着大型语言模型(LLM)所表现出的增强的自然语言理解能力的出现,实现这一目标的道路已经阐明。在本文中,我们试图检验当今LLM理解和执行自然语言中概述的算法的能力。我们建立了一个算法测试集,该测试集来源于著名的教科书《算法导论》,其中包含许多具有代表性的广泛使用的算法。为了系统地评估LLM的代码执行能力,我们选择了30种算法,总共生成了300个随机采样实例,并评估了流行的LLM是否能够理解和执行这些算法。我们的研究结果表明,LLM,尤其是GPT-4,可以有效地执行用自然语言描述的程序,只要不涉及大量的数字计算。我们相信,我们的发现有助于评估LLM的代码执行能力,并将鼓励对LLM的计算能力进行进一步的研究和应用。我们的代码和数据在https://github.com/MrZhengXin/natural_language_program可用。
本文探讨了大型语言模型(LLM)执行自然语言描述算法的能力,通过建立算法测试集评估了LLM,特别是GPT-4在理解和执行这类程序上的效果。研究结果显示,LLM能有效执行非数值密集型算法,展现了类似冯-诺依曼机器的功能,为LLM在计算能力方面的研究和应用提供了新视角。
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



