本文是LLM系列文章,针对《An Effective Framework to Help LLMs Handle Numeric-involved Long-context Tasks》的翻译。
摘要
大型语言模型(LLM)在处理长文本方面表现出了卓越的能力,并且在传统检索任务中具有近乎完美的表现。然而,当涉及长上下文中的数值计算时,它们的性能会显着下降。目前的LLM在正常情况下通常无法解决涉及数字的长上下文任务,因为它们在同时处理复杂和大量信息方面存在固有的局限性。一些CoT之类的提示方法可以提高准确性,但需要大量输出token,成本高且速度慢。为了解决这个问题,我们提出了一种工作流程,将涉及数字的长上下文任务分解为 4 个低级子任务:判断、提取以及用代码和结论进行处理。前两个子任务相对简单,这使得我们可以使用较小的模型来有效地处理长上下文。当需要进行数值计算时,我们使用LLM生成的代码,以避免LLM不擅长计算的缺点。 2 个涉及数字的长上下文基准测试的结果表明,我们的工作流程不仅可以提高准确性,还可以显着降低 API 调用的成本。
1 引言
2 方法
3 实验
4 结论
在这项研究中,我