2024_ICLR_Honorable mentions_AMORTIZING INTRACTABLE INFERENCE IN LARGE LANGUAGE MODELS

最新推荐文章于 2026-01-08 15:52:12 发布

原创最新推荐文章于 2026-01-08 15:52:12 发布 · 11 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#语言模型 #人工智能 #自然语言处理

LLM Daily 同时被 2 个专栏收录

1833 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

35 篇文章

订阅专栏

在这里插入图片描述

文章核心总结

该研究针对自回归大语言模型（LLMs）在难解后验分布采样中的局限，提出一种基于生成流网络（GFlowNets）的微调方法，通过摊销贝叶斯推理实现对难解后验的高效采样。核心优势包括提升样本多样性、数据效率和分布外泛化能力，在句子续写、故事填充、主观性分类、算术推理等任务中验证了有效性。

主要创新点

提出通用摊销采样算法，解决LLMs中序列填充、约束生成等任务的难解后验采样问题。
将思维链推理建模为潜变量贝叶斯推理问题，通过GFlowNet微调实现数据高效的多步推理和工具使用适配。
突破传统最大似然训练和奖励最大化强化学习的局限，实现分布匹配式微调，避免模式崩溃，兼顾样本保真度与多样性。
验证了GFlowNet微调在低数据量场景下的优势，以及在分布外任务中的强泛化能力。

Abstract 翻译

自回归大语言模型（LLMs）通过下一个token的条件分布从训练数据中压缩知识，这限制了只能通过从头到尾的自回归采样来高效查询这些知识。然而，许多重要任务（包括序列续写、文本填充和其他形式的约束生成）都涉及从未知后验分布中采样。我们通过摊销贝叶斯推理来从未知后验中采样，从而解决这一局限。这种摊销通

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。