Linear Attention之GLA

原创已于 2025-09-28 10:08:43 修改 · 607 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #Transformer #线性注意力 #GLA #Linear Atten

于 2025-09-10 11:33:42 首次发布

上一章《Linear Attention续集》简单介绍Linear Attention训练中的Memory-efficient和Hardware-efficient方法，这章主要介绍Gated Linear Attention（GLA）的原理。（本文仅供学习参考，禁止商用盗用，转载请注明出处）

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

SuMastiff

关注关注

13
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Kimi Linear深度解读：当LLM拥有了“纠错式”动态记忆

步子哥的博客

11-09

174

相比于其他同样采用精细化门控的架构（如GLA），KDA通过巧妙的数学变换，将计算量减少了近一半，在64K长度的序列上，其Kernel（计算核心）的执行速度比标准DPLR快了近2倍。这种设计，既保留了KDA带来的线性和高效，又通过周期性的全局“校准”弥补了线性注意力在全局信息捕捉上的短板，实现了性能与效率的最佳平衡。它通过记忆的动态衰减和更新，自然地形成了对“远近亲疏”的感知，越近的信息影响越大，越远的信息则根据其重要性被选择性保留或遗忘。这不仅是对现有注意力机制的一次增量改进，更是一场深刻的架构革新。

GLA算子（Gated Linear Attention)的推导及思考

m0_73678693的博客

12-14

1252

当今的大语言模型基本均是基于transformer架构而构建的，基于softmax-attention计算的transformer架构在训练时具有很好的并行性能，但transformer重要问题之一是其计算的时间、空间复杂度均与序列的长度成二次关系。而随着序列长度的不断增加，transformer架构的计算量是难以承受的，这是大模型难以处理长文本问题非常重要的原因。于是如何将transformer计算线性化（即将复杂度降到）的问题便被提上日程，具体而言便是将attention计算线性化。

参与评论您还未登录，请先登录后发表或查看评论

线性注意力机制

qq_45889056的博客

03-31

6512

特性Linformer核心方法特征映射 + 结合律优化低秩投影压缩KKK和VVV复杂度ONO(N)ON（严格线性）ON⋅kON⋅k（近似线性）是否保留 Softmax❌ 替换为线性近似✅ 保留原始 Softmax是否需要投影矩阵❌ 无额外参数✅ 需学习EKEVE_K, E_VEKEV适用场景通用序列任务（生成、分类）超长序列（文档、图像）近似误差较高（依赖特征映射的合理性）较低（低秩假设成立时）开源实现GitHub。

从GLA到RWKV7：flash-linear-attention模型进化史

gitblog_01118的博客

10-16

630

你是否在处理长文本时遇到过模型效率低下的问题？是否想知道如何在保持性能的同时大幅提升训练速度？本文将带你深入了解flash-linear-attention项目中两种革命性模型——GLA（Gated Linear Attention）和RWKV7的技术演进历程，揭示线性注意力模型如何突破传统Transformer的性能瓶颈。读完本文，你将掌握： - GLA的核心创新与实现原理 - RWKV7如何...

Linear Attention之Mamba

supervlc的博客

09-12

714

本文介绍了与LinearAttention高度相似的Mamba模型，其基于状态空间模型(SSM)实现线性复杂度。文章仅供学习参考，禁止商用盗用，并需注明出处。

硬件高效的线性注意力机制Gated Linear Attention论文阅读

I good vegetable a!

06-04

3085

这篇文章主要是对GLA Transformer这篇Paper进行了阅读，进一步学习Chunkwise Linear Attention的思想以及GLA特殊的2级分块Chunkwise并行。不过我在 https://github.com/sustcsonglin/flash-linear-attention 官方仓库以及Paper给出的GLA算法伪代码中都看到只有一次分块，不太清楚原因。

【Linear Attention Talk】学习笔记

li1998zk的博客

02-16

1301

DeltaNet 严格来说比 SSM 更具表现力。

大模型推理新选择：flash-linear-attention vs vLLM性能对比

gitblog_00942的博客

10-16

912

在大语言模型（LLM）应用中，推理速度和内存效率直接决定了用户体验和服务成本。传统Transformer架构因二次复杂度难以处理长文本，而flash-linear-attention（FLA）和vLLM作为新一代推理优化方案，正逐步成为行业焦点。本文将从技术原理、性能数据和适用场景三个维度，为你揭开这两款工具的真实实力。 ## 技术原理对比 ### flash-linear-attention...

Flash Linear Attention (FLA) 训练指南：基于flame框架的高效实现

gitblog_00369的博客

06-24

743

Flash Linear Attention (FLA) 是一种高效的自注意力机制实现方式，能够显著降低Transformer模型在长序列处理时的内存占用和计算复杂度。flame框架是基于torchtitan构建的轻量级训练框架，专门为FLA模型的训练优化而设计。 ## 环境准备 ### 安装步骤 1. 获取flame框架代码 2. 安装Python依赖项 3. 初始化子模块（包含fla和t...

混合线性注意力机制的系统性分析：当传统Transformer遇上创新“混血“架构——加州大学圣克鲁兹分校与字节跳动的突破性研究

zhidingkeji的博客

07-20

607

这种门控机制能够防止灾难性的信息覆盖，就像一个谨慎的编辑，在添加新内容时会仔细考虑保留哪些重要的旧信息。随着输入文本长度的增加，所需的计算资源会呈现平方级增长，这就好比图书管理员需要记住每本书与其他所有书籍的关系，当书籍数量翻倍时，需要记住的关系数量却要增加四倍。这项研究的创新之处在于，它不仅仅是简单地测试不同的"混血"比例，而是系统性地探索了线性注意力机制的三个发展世代，以及它们在混合架构中的表现。就像一支成功的篮球队不一定是由最好的五个单独球员组成的一样，最佳的混合架构需要考虑不同组件之间的协同效应。

比Transformer还快？闭环递归Comba登场！标量低秩变换加速前向传播，CV/NLP齐夺SOTA

Paper weekly

06-18

1326

由于现代 GPU 是为矩阵乘法所设计的，导致递归模型在较短序列的计算时通常比 Transformer 要慢，为了最大化矩阵乘法 Flops，类似于 Mamba2，GLA，DeltaNet 等模型，Comba 采取如下块间递归，块内并行的方式，在序列维度上高效并行计算。并且这类模型基于加法的更新机制，不断的将 key-value 所构成的外积记忆加到记忆状态中，导致模型缺少一个准则来判断哪些记忆是重要的，哪些记忆是不重要的，数据依赖的门控会使得状态中存储的记忆会平等的遗忘。

【PCIe 总线及设备入门学习专栏 5.4 -- Linux EP driver iommu 与 DMA】

CodingCos的博客

12-04

本文介绍了IOMMU在Linux系统中的应用场景及关键概念。IOMMU主要用于PCIe设备DMA访问时的地址转换(IOVA→PA)、提供安全隔离以及支持虚拟化场景。文章对比了启用/关闭IOMMU的差异，详细说明了IOVA的使用时机，并列举了内核态地址转换的相关API，包括虚拟地址转物理地址(virt_to_phys)、用户态地址转换(get_user_pages)以及IOMMU相关转换(iommu_iova_to_phys)。特别指出CPU访问BAR时不经过IOMMU，只有PCIe设备DMA时才需要IOMM

算法题归类学习

最新发布

qq_43751506的博客

12-05

361

删除排序链表中的重复元素II（LeetCode 82） - 全删除。删除排序链表中的重复元素（LeetCode 83） - 保留一个。删除链表的倒数第N个结点（LeetCode 19） - 快慢指针。二叉树的最大深度（LeetCode 104） - DFS/BFS。二叉树的最近公共祖先（LeetCode 236） - 递归查找。二叉树的层序遍历（LeetCode 102） - BFS队列。二叉树的中序遍历（LeetCode 94） - 递归/迭代。环形链表（LeetCode 141） - 快慢指针判环。

vite学习

qq_41549657的博客

12-04

625

核心优势极速开发启动：开发阶段不打包，直接让浏览器加载原生ESM,配合ebuild预购建第三方依赖，启动时间从webpack的秒级变为毫秒级热更新（HMR）快:只更新修改的模块，而非全量重建，大型项目热更新耗时<10ms按需编译：开发阶段仅编译当前请求的模块，而非全量打包内置对Typescript、JSX、CSS、静态资源的支持，无需复杂配置生产环境优化：基于Rollup打包，输出高度优化的静态资源，兼顾开发销量和生产性能<docs>Vite 处理.vue。

【Prompt学习技能树地图】LangChain原理及应用操作指南

致力于成为一名data scientist 的奋斗者

12-03

684

基础层主要解决两个核心问题：模型调用的统一化和数据存储的标准化。通过抽象接口设计，为上层应用提供了稳定、可预测的编程模型。表3.2：基础层核心组件概览组件类别核心功能解决的关键问题典型实现模型抽象统一模型调用接口屏蔽不同模型API差异存储抽象统一数据访问方式标准化各类存储系统操作文档处理多格式文档加载与转换统一文档处理流程PDF、HTML、Markdown解析接口规范定义标准化调用契约确保组件间兼容性BaseLLM、VectorStore接口。

学习笔记二十三：支持向量机-间隔与支持向量

dengdaijc的专栏

12-02

736

本文介绍了支持向量机(SVM)的基本原理。SVM通过在样本空间中寻找最优划分超平面来实现分类，其核心思想是最大化分类间隔以提高泛化能力。关键概念包括：划分超平面的数学表示（由法向量和位移项定义）、支持向量（决定超平面位置的最近样本点）以及间隔（反映分类置信度）。SVM的基本型是一个凸二次规划问题，通过最小化法向量范数平方来最大化间隔，同时满足所有样本正确分类的约束条件。该方法具有理论严谨、模型稀疏、全局最优等优势，是经典的分类学习算法。

【办公软件学习】

qq_44901836的博客

12-03

589

办公软件学习技巧，解决办法

.Net Core 学习：Razor Pages -- EF Core工作原理

van的博客

12-04

293

核心概念：ORM（对象关系映射）核心概念：ORM（对象关系映射）LINQ 到 SQL 的转换机制。

彩色视频对象提取：GLA聚类算法的应用与比较

本文主要探讨了GLA聚类算法在彩色视频对象提取中的应用，这是一种针对视频处理领域中复杂任务的先进策略。GLA（Globally Local Aggregation）算法是一种基于全局和局部信息相结合的聚类方法，它在处理图像数据时，...