datawhale组队学习-大语言模型-task5:主流模型架构及新型架构

目录

5.3  主流架构

5.3.1  编码器-解码器架构

5.3.2  因果解码器架构

5.3.3  前缀解码器架构

5.4   长上下文模型

5.4.1  扩展位置编码

5.4.2  调整上下文窗口

5.4.3  长文本数据

5.5   新型模型架构

5.5.1  参数化状态空间模型

5.5.2  状态空间模型变种


5.3  主流架构

在预训练语言模型时代,自然语言处理领域广泛采用了预训练 + 微调的范式, 并诞生了以 BERT 为代表的编码器(Encoder-only)架构、以 GPT 为代表的解码 器(Decoder-only)架构和以 T5 为代表的编码器-解码器(Encoder-decoder)架构的 大规模预训练语言模型。随着 GPT 系列模型的成功发展,当前自然语言处理领域 走向了生成式大语言模型的道路,解码器架构已经成为了目前大语言模型的主流架构。进一步,解码器架构还可以细分为两个变种架构,包括因果解码器(Causal Decoder)架构和前缀解码器(Prefix Decoder)架构。学术界所提到解码器架构时,通常指的都是因果解码器架构。图 5.6 针对这三种架构进行了对 比。

 因果解码器                               前缀解码器                                编码器-解码器

5.6 三种主流架构的注意力模式比较示意图(蓝色、绿色、黄色和灰色的圆角矩形分别表示前缀词元之间的注意力、前缀词元和目标词元之间的注意力、目标词元之间的注意力以及掩码注意力)

5.3.1  编码器-解码器架构

编码器-解码器架构是自然语言处理领域里一种经典的模型结构,广泛应用于 如机器翻译等多项任务。原始的 Transformer 模型也使用了这一架构,组合了两个分别担任编码器和解码器的 Transformer 模块。如图 5.6 所示,此架构在编码器端采用了双向自注意力机制对输入信息进行编码处理,而在 解码器端则使用了交叉注意力与掩码自注意力机制,进而通过自回归的方式对输 出进行生成。基于编码器-解码器设计的预训练语言模型(诸如 T5 等)在众多自然语言理解与生成任务中展现出了优异的性能,但是目前只有如 FLAN-T5等少数大语言模型是基于编码器-解码器架构构建而成的。

5.3.2  因果解码器架构

当前,绝大部分主流的大语言模型采用了因果解码器架构。因果解码器采用 了 Transformer 中的解码器组件,同时做出了几点重要改动。首先,因果解码器没 有显式地区分输入和输出部分。如图 5.6 所示,该架构采用了单向的掩码注意力机 制,使得每个输入的词元只关注序列中位于它前面的词元和它本身,进而自回归 地预测输出的词元。此外,由于不含有编码器部分,因果解码器删除了关注编码 器表示的交叉注意力模块。经过自注意力模块后的词元表示将直接送入到前馈神 经网络中。在因果解码器架构中,最具有代表性的模型就是 OpenAI 推出的 GPT 系列。其中,GPT-3 将模型参数拓展到了 100B 级别,并展现出了强大的零样本和 少样本学习能力。伴随着 GPT-3 的成功,因果解码器被广泛采用于各种大语言模 型中,包括 BLOOM、LLaMA 和 Mistral 等。

5.3.3  前缀解码器架构

前缀解码器架构也被称为非因果解码器架构,对于因果解码器的掩码机制进 行了修改。该架构和因果解码器一样,仅仅使用了解码器组件。与之不同的是,该 架构参考了编码器-解码器的设计,对于输入和输出部分进行了特定处理。如图 5.6 所示,前缀解码器对于输入(前缀)部分使用双向注意力进行编码,而对于输出 部分利用单向的掩码注意力利用该词元本身和前面的词元进行自回归地预测。与 编码器-解码器不同的是,前缀解码器在编码和解码过程中是共享参数的,并没有 划分为独立的解码器和编码器。对于前缀解码器,也可以由现有的因果解码器继 续预训练转换而来,进而加速该模型的训练。

5.4   长上下文模型

        在实际应用中,大语言模型对于长文本数据的处理需求日益凸显,尤其在长 文档分析、多轮对话、故事创作等场景下。在这些情况下,模型需要处理的文本的 长度常常超出预定义上下文窗口大小。例如,LLaMA-2 的上下文窗口限制为 4,096个词元。为了支持长文本处理,多家机构均已推出面向具有超长上下文窗口的大 语言模型或 API。例如,OpenAI 发布了支持 128K 上下文窗口的 GPT-4 Turbo,而 Anthropic 则推出了具有 200K 上下文窗口的 Claude-2.1。

        给定一个预训练后的大语言模型,如何有效拓展其上下文窗口以应对更长的 文本数据成为当前学术界的研究焦点。目前,增强大语言模型长文本建模能力的 研究主要集中在两个方向:一是扩展位置编码,二是调整上下文窗口。除了探讨拓展上下文窗口的方法外,本部分将在最后探讨训练长上下文模型所需的长文本数据。

内容概要:本文介绍了一个基于MATLAB实现的无人机三维路径规划项目,采用蚁群算法(ACO)与多层感知机(MLP)相结合的混合模型(ACO-MLP)。该模型通过三维环境离散化建模,利用ACO进行全局路径搜索,并引入MLP对环境特征进行自适应学习与启发因子优化,实现路径的动态调整与多目标优化。项目解决了高维空间建模、动态障碍规避、局部最优陷阱、算法实时性及多目标权衡等关键技术难题,结合并行计算与参数自适应机制,提升了路径规划的智能性、安全性和工程适用性。文中提供了详细的模型架构、核心算法流程及MATLAB代码示例,涵盖空间建模、信息素更新、MLP训练与融合优化等关键步骤。; 适合人群:具备一定MATLAB编程基础,熟悉智能优化算法与神经网络的高校学生、科研人员及从事无人机路径规划相关工作的工程师;适合从事智能无人系统、自动驾驶、机器人导航等领域的研究人员; 使用场景及目标:①应用于复杂三维环境下的无人机路径规划,如城市物流、灾害救援、军事侦察等场景;②实现飞行安全、能耗优化、路径平滑与实时避障等多目标协同优化;③为智能无人系统的自主决策与环境适应能力提供算法支持; 阅读建议:此资源结合理论模型与MATLAB实践,建议读者在理解ACO与MLP基本原理的基础上,结合代码示例进行仿真调试,重点关注ACO-MLP融合机制、多目标优化函数设计及参数自适应策略的实现,以深入掌握混合智能算法在工程中的应用方法。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值