为什么现在的大语言模型(LLM)都是Decoder-only的架构?

本文探讨Decoder-only架构成为LLM主流的原因,通过对比实验和理论分析,提出Decoder-only在训练效率、工程实现及理论上的优势。双向注意力可能因低秩问题导致表达能力下降,而在同等条件下,Decoder-only架构可能是最优选择。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

659aa6867edaf955de38da8900ca9d3e.gif

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

LLM 是“Large Language Model”的简写,目前一般指百亿参数以上的语言模型,主要面向文本生成任务。跟小尺度模型(10 亿或以内量级)的“百花齐放”不同,目前 LLM 的一个现状是 Decoder-only 架构的研究居多,像 OpenAI 一直坚持 Decoder-only 的 GPT 系列就不说了,即便是 Google 这样的并非全部押注在 Decoder-only 的公司,也确实投入了不少的精力去研究 Decoder-only 的模型,如 PaLM 就是其中之一。那么,为什么 Decoder-only 架构会成为 LLM 的主流选择呢? 

知乎上也有同款问题《为什么现在的 LLM 都是 Decoder only 的架构?》[1],上面的回答大多数聚焦于 Decoder-only 在训练效率和工程实现上的优势,那么它有没有理论上的优势呢?本文试图从这个角度进行简单的分析。

117bc30a0d200e534bc29b456ba71e92.png

统一视角

需要指出的是,笔者目前训练过的模型,最大也就是 10 亿级别的,所以从 LLM 的一般概念来看是没资格回答这个问题的,下面的内容只是笔者根据一些研究经验,从偏理论的角度强行回答一波。

我们知道,一般的 NLP 任务都是根据给定的输入来预测输出,完全无条件的随机生成是很少的,换句话说,任何 NLP 任务都可以分解为“输入”跟“输出”两部分,我们可以把处理“输入”的模型叫做 Encoder,生成“输出”的模型叫做 Decoder,那么所有任务都可以从“Encoder-Decoder”的视角来理解,而不同模型之间的差距在于 Encoder、Decoder 的注意力模式以及是否共享参数:

59bc581f5d341f6e57466795eeaea77a.png

这里的 GPT 就是 Decoder-only 的代表作;Uni

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值