AI 观察:以向量而非文本进行推理

虽然大型语言模型可以通过生成思路链 (CoT)(将响应提示的过程分解为一系列步骤的中间文本标记)来提高其性能,但大部分 CoT 文本旨在保持流畅性(例如“a”、“of”、“我们知道”)而不是推理(“a² + b² = c²”)。研究人员解决了这种低效率问题。

最新消息:Shibo Hao、Sainbayar Sukhbaatar 和 Meta 和加州大学圣地亚哥分校的同事介绍了 Coconut(连续思维链),这是一种训练大型语言模型 (LLM) 将思路链处理为向量而不是单词的方法。

关键见解:大型语言模型 (LLM) 可以分为嵌入层、转换器和分类层。为了从输入文本生成下一个文本标记,嵌入层嵌入文本;给定文本,转换器输出一个隐藏向量;分类层将向量映射到文本标记概率。基于这些概率,解码算法选择下一个要生成的标记,该标记反馈到输入文本序列中以生成下一个向量,依此类推。当模型生成 CoT 时,在每个步骤中提交一个特定的单词会将可用的信息限制为迄今为止生成的单词的含义,而向量可以表示多个可能的单词。使用向量代替文本可以使 CoT 编码更丰富的信息。

工作原理:作者通过对三个提示、CoT 和最终输出数据集上的预训练 GPT-2 进行微调,构建了三个 LLM:GSM8k(小学数学应用题);ProntoQA(关于用虚构单词表达的虚构概念的问题和答案,包括自然语言中的合成 CoT);和 (3) ProsQA,这是作者引入的更具挑战性的问答数据集,灵感来自 ProntoQA,但推理步骤更长。

• 微调从监督训练开始。LLM 学会了生成训练集中的文本,包括 CoT 和最终答案。像往常一样,最后生成的文本标记被反馈为输入以生成下一个标记。    

• 然后,微调通过每个示例的 k 个阶段进行。在每个阶段,作者用一个(或两个)思维向量替换 CoT 文本中的一个句子,以构建一个由 k 个替换句子组成的序列。思维向量链的开始和结束由两个特殊标记标记。在向量步骤中,LLM 将其输出向量反馈为输入,而不将其解码为文本。LLM 学会了仅生成剩余的文本标记,而不是思维向量,这鼓励它间接优化其基于向量的推理。

• 在推理过程中,LLM 生成一个特殊标记来标记向量链的开始。从这一点开始,它反馈其输出向量,绕过文本解码六个步骤。之后,LLM 切换回生成文本以供最终输出。

结果:作者将他们的方法与预训练的 GPT-2 进行了比较,后者在相同的数据集上进行了微调以预测下一个单词,包括推理。

• 在 ProntoQA 上,Coconut 的表现优于微调后的 GPT-2,同时产生的中间向量(Coconut)或标记(基线 LLM)少得多。它在平均生成 9 个向量(或标记)后实现了 99.8% 的准确率,而 GPT-2 使用 92.5 个文本标记实现了 98.8% 的准确率。

• Coconut 在 ProsQA 更复杂的问题上表现出色。它在平均生成 14.2 个向量(或标记)后实现了 97.0% 的准确率,而 GPT-2 在平均生成 49.4 个文本标记后实现了 77.5% 的准确率。

是的,但是:在 GSM8k 上,Coconut 的准确率为 34.1%,而基线 LLM 的准确率为 42.9%。但是,它生成的向量和标记比 CoT 生成的标记少得多。与基线 LLM 的 25 个文本标记相比,Coconut 平均生成了 8.2 个向量。

为什么重要:传统的 CoT 在每个步骤中都只处理一个单词,因此在单个 CoT 中编码了一个推理路径。与语言相比,向量对人类的可解释性较差,但模型的输出层仍然可以将思维向量解码为标记上的概率。此外,检查存储在所有连续 CoT 向量上的单词分布提供了一种理解存储在一个连续 CoT 中的多个潜在思维路径的方法。    

我们在想:LLM 通常学习对文本进行推理,主要是因为文本数据可以广泛用于训练。相比之下,神经科学表明,人类大脑中负责语言的部分在推理任务期间基本上处于安静状态,这表明明确的语言不是推理的关键机制。Coconut 迈出了有趣的一步,使 LLM 能够探索不编码语言限制的表示。  

(本文系翻译,内容来自DeepLearning.AI,文章内容不代表本号立场)

觉得文章不错,顺手点个“点赞”、“在看”或转发给朋友们吧。

图片

相关阅读:

为什么说DeepSeek在物理世界最大的应用可能是智能电动车?

重磅体验:AI编程不能取代程序员,但程序员会用的话确实很爽

最新洞见:GenAI在企业应用中的既要又要

关于译者


图片

关注公众号看其它原创作品

坚持提供对你有用的信息

觉得好看,点个“点赞”、“在看”或转发给朋友们,欢迎你留言。  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值