Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training

本文是LLM系列文章,针对《Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training》的翻译。

通过语义感知置换训练减轻大型语言模型中的反向诅咒

摘要

虽然大型语言模型(LLM)在不同的任务中取得了令人印象深刻的性能,但最近的研究表明,因果LLM受到了“逆转诅咒”。这是一个典型的例子,模型知道“a的父亲是B”,但无法推理“B的孩子是a”。这一限制对通用人工智能(AGI)的进步提出了挑战,因为它表明模型理解和应用双向推理的能力存在差距。在本文中,我们首先进行了实质性的评估,并确定反向诅咒的根本原因在于训练和推理阶段之间的语序不同,即因果语言模型在训练数据中预测先行词的能力较差。因此,对训练数据的排列被认为是一种潜在的解决方案,因为这可以使模型预测先行词或token。然而,先前的排列方法可能会破坏完整的短语或实体,从而给模型理解和从训练数据中学习带来挑战。为了解决这个问题,我们提出了语义感知置换训练(SPT),它通过使用辅助语言模型将训练句子分割成语义单元(即实体或短语),并在输入模型之前对这些单元进行置换来解决这个问题。大量实验表明,SPT有效地缓解了反向诅咒,因为反向问题的表现与正向问题的表现接近,并显著提高了现有工作的表现

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值