datawhale组队学习-大语言模型-task5:主流模型架构及新型架构

大语言模型主流及新型架构解析

目录

5.3  主流架构

5.3.1  编码器-解码器架构

5.3.2  因果解码器架构

5.3.3  前缀解码器架构

5.4   长上下文模型

5.4.1  扩展位置编码

5.4.2  调整上下文窗口

5.4.3  长文本数据

5.5   新型模型架构

5.5.1  参数化状态空间模型

5.5.2  状态空间模型变种


5.3  主流架构

在预训练语言模型时代,自然语言处理领域广泛采用了预训练 + 微调的范式, 并诞生了以 BERT 为代表的编码器(Encoder-only)架构、以 GPT 为代表的解码 器(Decoder-only)架构和以 T5 为代表的编码器-解码器(Encoder-decoder)架构的 大规模预训练语言模型。随着 GPT 系列模型的成功发展,当前自然语言处理领域 走向了生成式大语言模型的道路,解码器架构已经成为了目前大语言模型的主流架构。进一步,解码器架构还可以细分为两个变种架构,包括因果解码器(Causal Decoder)架构和前缀解码器(Prefix Decoder)架构。学术界所提到解码器架构时,通常指的都是因果解码器架构。图 5.6 针对这三种架构进行了对 比。

 因果解码器                               前缀解码器                                编码器-解码器

5.6 三种主流架构的注意力模式比较示意图(蓝色、绿色、黄色和灰色的圆角矩形分别表示前缀词元之间的注意力、前缀词元和目标词元之间的注意力、目标词元之间的注意力以及掩码注意力)

5.3.1  编码器-解码器架构

编码器-解码器架构是自然语言处理领域里一种经典的模型结构,广泛应用于 如机器翻译等多项任务。原始的 Transformer 模型也使用了这一架构,组合了两个分别担任编码器和解码器的 Transformer 模块。如图 5.6 所示,此架构在编码器端采用了双向自注意力机制对输入信息进行编码处理,而在 解码器端则使用了交叉注意力与掩码自注意力机制,进而通过自回归的方式对输 出进行生成。基于编码器-解码器设计的预训练语言模型(诸如 T5 等)在众多自然语言理解与生成任务中展现出了优异的性能,但是目前只有如 FLAN-T5等少数大语言模型是基于编码器-解码器架构构建而成的。

5.3.2  因果解码器架构

当前,绝大部分主流的大语言模型采用了因果解码器架构。因果解码器采用 了 Transformer 中的解码器组件,同时做出了几点重要改动。首先,因果解码器没 有显式地区分输入和输出部分。如图 5.6 所示,该架构采用了单向的掩码注意力机 制,使得每个输入的词元只关注序列中位于它前面的词元和它本身,进而自回归 地预测输出的词元。此外,由于不含有编码器部分,因果解码器删除了关注编码 器表示的交叉注意力模块。经过自注意力模块后的词元表示将直接送入到前馈神 经网络中。在因果解码器架构中,最具有代表性的模型就是 OpenAI 推出的 GPT 系列。其中,GPT-3 将模型参数拓展到了 100B 级别,并展现出了强大的零样本和 少样本学习能力。伴随着 GPT-3 的成功,因果解码器被广泛采用于各种大语言模 型中,包括 BLOOM、LLaMA 和 Mistral 等。

5.3.3  前缀解码器架构

前缀解码器架构也被称为非因果解码器架构,对于因果解码器的掩码机制进 行了修改。该架构和因果解码器一样,仅仅使用了解码器组件。与之不同的是,该 架构参考了编码器-解码器的设计,对于输入和输出部分进行了特定处理。如图 5.6 所示,前缀解码器对于输入(前缀)部分使用双向注意力进行编码,而对于输出 部分利用单向的掩码注意力利用该词元本身和前面的词元进行自回归地预测。与 编码器-解码器不同的是,前缀解码器在编码和解码过程中是共享参数的,并没有 划分为独立的解码器和编码器。对于前缀解码器,也可以由现有的因果解码器继 续预训练转换而来,进而加速该模型的训练。

5.4   长上下文模型

        在实际应用中,大语言模型对于长文本数据的处理需求日益凸显,尤其在长 文档分析、多轮对话、故事创作等场景下。在这些情况下,模型需要处理的文本的 长度常常超出预定义上下文窗口大小。例如,LLaMA-2 的上下文窗口限制为 4,096个词元。为了支持长文本处理,多家机构均已推出面向具有超长上下文窗口的大 语言模型或 API。例如,OpenAI 发布了支持 128K 上下文窗口的 GPT-4 Turbo,而 Anthropic 则推出了具有 200K 上下文窗口的 Claude-2.1。

        给定一个预训练后的大语言模型,如何有效拓展其上下文窗口以应对更长的 文本数据成为当前学术界的研究焦点。目前,增强大语言模型长文本建模能力的 研究主要集中在两个方向:一是扩展位置编码,二是调整上下文窗口。除了探讨拓展上下文窗口的方法外,本部分将在最后探讨训练长上下文模型所需的长文本数据。

无界云图(开源在线图片编辑器源码)是由四川爱趣五科技推出的一款类似可画、创客贴、图怪兽的在线图片编辑器。该项目采用了React Hooks、Typescript、Vite、Leaferjs等主流技术进行开发,旨在提供一个开箱即用的图片编辑解决方案。项目采用 MIT 协议,可免费商用。 无界云图提供了一系列强大的图片编辑功能,包括但不限于: 素材管理:支持用户上传、删除和批量管理素材。 操作便捷:提供右键菜单,支持撤销、重做、导出图层、删除、复制、剪切、锁定、上移一层、下移一层、置顶、置底等操作。 保存机制:支持定时保存,确保用户的工作不会丢失。 主题切换:提供黑白主题切换功能,满足不同用户的视觉偏好。 多语言支持:支持多种语言,方便全球用户使用。 快捷键操作:支持快捷键操作,提高工作效率。 产品特色 开箱即用:无界云图采用了先进的前端技术,用户无需进行复杂的配置即可直接使用。 免费商用:项目采用MIT协议,用户可以免费使用和商用,降低了使用成本。 技术文档齐全:提供了详细的技术文档,包括技术文档、插件开发文档和SDK使用文档,方便开发者进行二次开发和集成。 社区支持:提供了微信技术交流群,用户可以在群里进行技术交流和问题讨论。 环境要求 Node.js:需要安装Node.js环境,用于运行和打包项目。 Yarn:建议使用Yarn作为包管理工具,用于安装项目依赖。 安装使用 // 安装依赖 yarn install // 启动项目 yarn dev // 打包项目 yarn build 总结 无界云图是一款功能强大且易于使用的开源在线图片编辑器。它不仅提供了丰富的图片编辑功能,还支持免费商用,极大地降低了用户的使用成本。同时,详细的文档和活跃的社区支持也为开发者提供了便利的二次开发和集成条件。无论是个人用户还是企业用户,都可以通过无界云图轻
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值