1. 文章简介
这篇文章是Google在23年9月发表的一个工作,在这篇文章当中,他们提出了一个OPRO的框架,在这个框架当中,他们使用LLM来模拟模型训练当中的optimizer,然后通过迭代的方式不断地预设的NLP问题进行持续迭代,从而获得最优的问题回答。
基于这个框架,文中首先在两个简单的问题上做了可行性验证:
- 线性回归问题
- 旅行推销员问题(TSP问题)
这个框架天然地适用于prompt的优化问题,因为这同样是一个有明确定义的文本优化问题,因此文中使用这个框架同样进行了LLM的prompt优化,然后在GSM8K和BBH两个NLP数据集当中获得了SOTA的结果。

谷歌新论文提出OPRO框架,利用大型语言模型模拟优化器,对线性回归和旅行推销员问题进行验证,展示了在GSM8K和BBH数据集上优化prompt的有效性。研究还探讨了模型设置、多样性等因素对性能的影响,并与EvoPrompt进行对比。
最低0.47元/天 解锁文章
1001





