题目
用大语言模型进行优化
论文地址:https://arxiv.org/abs/2310.05204
摘要
在这项研究中,我们评估了大型语言模型(LLM)在各种数学和组合优化任务中的优化能力,其中每个任务都用自然语言描述。这些任务要求LLM通过交互式提示迭代地生成和评估解决方案,其中每个优化步骤都涉及基于过去的结果生成新的解决方案,然后传递给后续迭代。我们证明了LLM可以执行各种优化算法,并充当有效的黑盒优化器,能够智能地优化未知函数。我们还引入了三个简单但信息丰富的指标来评估优化性能,适用于不同的任务,对测试样本的变化不太敏感。我们的发现揭示了LLM在优化有限数据的小规模问题方面的优势,并且它们的性能受到问题的维度和价值的显著影响,突出了LLM优化的进一步研究的需要。
引言
大型语言模型在各种基于自然语言的任务中表现出非凡的推理能力[7]。然而,他们的潜力超出了多项选择题或单项答题。这项工作探索了LLMs在不同任务和问题维度上的优化效果。优化包括迭代地生成和评估解决方案,以改进给定的目标函数。我们的研究评估了LLM在交互式优化中的性能,其中每一步都基于以前的解决方案及其价值生成新的解决方案。
我们用四种不同类型的优化算法进行研究:梯度下降、爬山、网格搜索和黑盒优化。为了提供对LLM性能的全面评估,我们引入了三个不同的指标。这些指标提供了任务性能的多方面视图,适用于广泛的优化任务,降低了对样本变化的敏感性。
我们的发现表明LLM显示出令人印象深刻的优化能力,尤其是在小规模问题中。然而,它们的性能明显受到样本大小和值范围等因素的影响。这些观察强调了在为LLM定制的优化任务领域内进行进一步研究的需要。重要的是要注意,我们的工作并不旨在超越数学优化或组合优化问题的最先进的优化算法。相反,我们的目标展示LLM在这些优化领域中的潜力,并找出这些设置中的限制。
我们的贡献总结如下:
- 探索LLMs在数学和组合优化场景中的潜力。
- 引入三种新的指标来评估LLM在优化任务中的表现。
- 使用我们的指标深入研究影响LLM绩效的因素,特别强调问题维度和任务类型的影响。
本文的其余部分结构如下。在第2节中,我们介绍了解决优化挑战的LLM的初步工作。在第3节中,我们在案例研究中定义了4种优化算法。在第4节中,我们论证了具有迭代激励策略的LLM作为优化器的功能。在第5节中,我们给出了我们设计的三个指标,用于评估LLM在执行优化任务时的整体性能。第6节详细介绍了我们的实验结果,展示了使用LLM作为优化器的有效性。在第7节中,我们综合了实验中值得注意的观察结果和讨论要点。最后,第8节对本文进行了总结和归纳。
相关工作
在各种优化场景中,大型语言模型(LLM)的利用对于能够处理复杂和信息丰富的基于文本的反馈的优化算法或代理系统的开发已经变得不可或缺。在本节中,我们总结了三个重要的相关工作,这些工作利用LLM来解决优化和强化学习的挑战。这些作品展示了LLM在解决不同领域的优化和学习挑战方面的适应性和有效性。
通过提示进行优化(OPRO) [8] OPRO通过在自然语言提示中描述优化任务,将LLM作为多功能优化器。它从这些提示中迭代地生成和评估解决方案,在诸如线性回归和旅行推销员问题等任务中表现出卓越的性能。在具有挑战性的任务上,OPRO比人类设计的提示高出50%。
Reflexion [5] Reflexion引入了一个新颖的框架来训练语言代理,它依赖于语言反馈而不是传统的强化学习。该框架提供了出色的结果,在编码任务上拥有令人瞩目的91%的pass@1准确率,比以前的最先进模型提高了11%。Reflexion的成功强调了语言反馈作为一种强大的培训机制的潜力。
EvoPrompt [2] EvoPrompt通过将LLM与进化算法相结合,实现了提示优化的自动化。这种自动化的过程比人工设计的提示高出25%,比现有的自动提示生成方法高出14%。EvoPrompt的成功凸显了大型语言模型和传统算法之间的关系,展示了通过这种协同融合增强问题解决能力的潜力。
问题设置
我们设计了四个优化任务,要求模型用算法搜索