- 博客(10)
- 收藏
- 关注
原创 Linear Attention之DeltaNet
DeltaNet采用Delta Rule机制更新hidden state,通过检索就内存得到旧值向量,并与当前值向量组合形成新值向量,实现对St状态的更新计算。该研究在Linear Attention框架下提出创新性改进,为学习参考提供新思路(禁止商用盗用,需注明出处)。
2025-09-26 21:17:04
344
原创 Linear Attention之Mamba
本文介绍了与LinearAttention高度相似的Mamba模型,其基于状态空间模型(SSM)实现线性复杂度。文章仅供学习参考,禁止商用盗用,并需注明出处。
2025-09-12 10:56:15
703
原创 Linear Attention之GLA
文章接续上章关于线性注意力的介绍,主要分享Gated Linear Attention(GLA)的工作原理。本文仅供学习参考,禁止商用盗用。
2025-09-10 11:33:42
586
原创 Linear Attention续集
本文介绍了LinearAttention训练中的Memory-efficient和Hardware-efficient方法,文章仅供学习参考,禁止商用盗用,转载注明出处。
2025-09-08 18:59:53
657
原创 Linear Attention
本文介绍了线性注意力(LinearAttention)与传统Softmax注意力的差异,作为背景知识分享。文章仅供学习参考,禁止商用盗用并需注明出处。
2025-09-05 15:31:20
527
原创 RoPE长文本外推YaRN
本文介绍RoPE位置编码的外推方法YaRN发展历程,包括RoPE、PI、NTK-awareRoPE、NTK-by-parts RoPE等技术演进,阐述了高频外推与低频插值思想的推进过程。文章仅供学习参考,禁止商用,需注明出处。
2025-08-28 20:14:22
783
原创 傅里叶位置编码FoPE
本文介绍了一种傅里叶位置编码方法FoPE,基于对RoPE的频谱分析发现问题:线性层和激活函数分别造成频谱泄露和失真,时域截断导致频率扩散,这些频谱损伤影响了RoPE的周期性扩展能力。针对这些问题,论文作者提出用傅里叶级数进行多频率建模,并对训练不足的低频分量置零处理时域截断问题,最终形成了FoPE方法。(仅供学习参考,禁止商用盗用)
2025-08-27 13:59:06
457
原创 RoPE续集
本文在《大模型学习记录2——RoPE》基础上,将RoPE位置编码推广至3D形式并提出新思考方向(待验证),同时探讨多模态大模型中的位置编码技术。文章仅供学习参考,禁止商用盗用,引用需注明出处。
2025-08-22 16:31:50
443
原创 旋转位置编码RoPE
本文在《大模型学习记录1》基础上,重点探讨Transformer中的位置编码机制,参考苏剑林老师的博客内容。文章仅供学习使用,禁止商用盗用,并需注明出处。
2025-08-21 10:16:50
672
原创 Transformer
本文解析经典论文《Attention Is All You Need》中的Transformer架构,介绍其核心模块原理与功能。作为大模型基础,Transformer通过自注意力机制实现高效特征提取。文章仅供学习参考,禁止商用,需注明出处。
2025-08-20 19:15:28
325
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅