SEALONG:LLM(Large Language Model)在长上下文推理任务中的自我改进

LLMs在处理长上下文推理任务时,面临着显著挑战。现有方法多依赖于人类专家或高级模型(如GPT-4)的注释,通过合成数据进行微调,这无疑限制了LLMs的进一步发展。为了克服这一难题,研究人员提出了一种名为SEALONG的方法,旨在使LLMs在长上下文推理任务中实现自我改进。今天我们一起来了解一下SEALONG。

一、SEALONG方法的提出与背景

长上下文推理是LLMs面临的一个重要挑战。在处理包含复杂信息和逻辑推理的长文本时,LLMs往往难以准确捕捉上下文中的关键信息,导致推理结果不尽如人意。传统的解决方法,如使用合成数据进行微调,依赖于外部注释,不仅耗时费力,而且限制了LLMs的自主性和泛化能力。

SEALONG方法的提出,正是为了解决这一问题。该方法利用LLMs自身的推理能力,通过采样多个输出、评分和优选,实现自我监督下的微调与偏好优化。这种方法不仅减少了对外部注释的依赖,还提高了LLMs在长上下文推理任务中的表现。

二、SEALONG方法的核心原理

SEALONG方法的核心原理可以概括为两个阶段:自我监督和微调。

  1. 自我监督阶段

在自我监督阶段,SEALONG利用“计划-解决”提示策略,为每个问题及其对应的长上下文采样多个推理轨迹。这些推理轨迹反映了LLMs在给定上下文中的不同推理路径。基于正确推理轨迹通常表现出更高语义一致性的假设,SEALONG使用最小贝叶斯风险(MBR)对输出进行评分。MBR评分通过评估输出在模型分布下的预期效用,来优先选择与其他输出一致性更高的输出。

在MBR评分过程中,SEALONG采用了一个轻量级的RoBERTa-based模型来嵌入输出,并通过内积测量相似性。每个输出y被赋予一个分数s(y),分数最高的输出被选为MBR解码输出。这一过程不仅提高了输出的质量,还为后续的微调阶段提供了高质量的监督数据。

  1. 微调阶段

在微调阶段,SEALONG利用自我监督阶段产生的高质量输出进行监督微调或偏好优化。监督微调通过最小化MBR解码输出的负对数似然来优化模型参数。而偏好优化则通过强化高评分输出的倾向性,降低低评分输出的可能性,来进一步优化模型性能。

为了实现偏好优化,SEALONG采用了单体比率偏好优化(ORPO)算法。ORPO算法引入了一个比率损失,以最小化优选输出与次优选输出之间的负对数比率。这一算法不仅提高了模型的性能,还增强了模型的稳定性和泛化能力。

三、实验过程与结果

(一)实验实现

  1. 1、数据合成

    • SEALONG 需要查询和长上下文对来合成训练数据,利用了 MuSiQue 的训练数据集,其中每个问题与多个维基百科文档相关。为了达到指定的上下文标记数量,随机采样一些不相关的文档,与相关文档打乱并连接成单个上下文。实验使用原始的 MuSiQue 问题,不依赖注释答案,而是依靠 LLM 进行自我监督。

  2. 2、模型选择

    • 实验使用 Llama - 3.1 模型和 Qwen - 2.5 模型,并以 jina - embeddings - v3 作为句子嵌入模型,默认使用 ORPO 作为微调方法。

(二)实验结果

  1. 1、模型性能提升

    • SEALONG 在不同模型上带来了显著的改进。在 Qwen - 2.5 - 7B - Instruct 上实现时,缩小了与 Qwen - 2.5 - 14B - Instruct 的性能差距(51.8 对 52.2);应用于 Qwen - 2.5 - 14B - Instruct 时,甚至超过了 Qwen - 2.5 - 32B - Instruct 的性能(54.7 对 53.1)。在 Llama - 3.1 - 8B - Instruct 上,SEALONG 实现了 4.2 的绝对改进,超过了 GPT - 4o。

  2. 2、与先前数据集比较

    • 将 SEALONG 与多个先前的数据集进行比较,结果表明 SEALONG 在性能上有提升(从 50.8 提升到 55.0),证明了自我改进方法的潜力。

  3. 3、评分方法比较

    • 比较了各种评分方法和贪婪搜索,结果显示基于 MBR 的方法优于无参考的自我评估,即使是简单的基于 N - gram 的 ROUGE 方法。

  4. 4、合成示例数量影响

    • SEALONG 在合成训练示例数量方面表现出较高的数据效率,仅用 1K 个示例就能实现有竞争力的性能,之后增加示例数量带来的收益有限。

  5. 5、每个示例的采样数量影响

    • 增加每个示例在数据合成期间的采样数量(从 8 增加到 32)持续提高了性能,这可能是由于更准确的 MBR 估计。

  6. 6、短上下文性能

    • 实验还关注了长上下文推理改进是否会影响短上下文性能,确保在提升长上下文推理能力的同时不损害短上下文的表现。

四、SEALONG方法的优势与局限性

SEALONG方法的优势在于其自主性和高效性。通过自我监督和微调,SEALONG能够在不依赖外部注释的情况下,显著提高LLMs在长上下文推理任务中的表现。此外,SEALONG还展示了强大的数据效率,能够在有限数量的合成训练示例下达到具有竞争力的性能。

然而,SEALONG方法也存在一些局限性。首先,尽管SEALONG取得了显著的性能提升,但最高MBR评分输出与oracle样本之间仍存在显著的性能差距。这可能是由于MBR评分方法本身的局限性或LLMs自身的推理能力限制所致。其次,SEALONG依赖于MuSiQue数据集进行合成数据,该数据集包含多跳问题,跨越多个段落,但并未涵盖所有具有挑战性的问题类型,如需要全上下文推理的问题。这限制了SEALONG在更广泛场景下的应用。最后,SEALONG的实施被限制在参数规模不超过14B的LLMs上,虽然其在更大规模上的有效性值得进一步研究,但目前尚无法确定其是否能在更大规模的LLMs上取得同样的性能提升。

五、未来展望

尽管SEALONG方法存在一些局限性,但其为LLMs在长上下文推理任务中的自我改进提供了一种新的思路和方法。未来研究可以进一步探索以下方向:

  1. 改进MBR评分方法:研究更准确的评分方法,以缩小最高MBR评分输出与oracle样本之间的性能差距。

  2. 扩展数据集:构建更广泛、更具挑战性的数据集,以涵盖更多类型的长上下文推理任务。

  3. 探索更大规模的LLMs:研究SEALONG方法在更大规模LLMs上的有效性,并探索如何进一步优化其性能。

  4. 结合其他技术:将SEALONG方法与其他先进技术相结合,如知识蒸馏、对抗性训练等,以进一步提高LLMs在长上下文推理任务中的表现。

总之,SEALONG方法为LLMs在长上下文推理任务中的自我改进提供了一种新的视角和方法。随着研究的深入和技术的不断发展,我们期待LLMs将在更广泛的场景下展现出更强大的推理能力和更广泛的应用前景。

论文:https://arxiv.org/abs/2411.08147

code:https://github.com/SihengLi99/SEALONG

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型之路

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值