- 博客(2)
- 收藏
- 关注
原创 DeltaNet并行化处理的部分关键推导
比起基于softmax attention的Transformer架构(运算复杂度与序列长度的平方成正比),Linear Model架构(Transformers with linear attention and state-space models)将运算的时间与空间复杂度降至线性,使其能在理论上更快地处理长序列任务。但由于其递归形式(逐元素运算),使得没法利用并行计算单元,所以实际训练效率较低。分chunk并行处理的形式在递归和并行之间找到了兼衡,成为Linear Model的必由之路。但当前的Lin
2025-01-28 15:22:59
1583
原创 GLA算子(Gated Linear Attention)的推导及思考
当今的大语言模型基本均是基于transformer架构而构建的,基于softmax-attention计算的transformer架构在训练时具有很好的并行性能,但transformer重要问题之一是其计算的时间、空间复杂度均与序列的长度成二次关系。而随着序列长度的不断增加,transformer架构的计算量是难以承受的,这是大模型难以处理长文本问题非常重要的原因。于是如何将transformer计算线性化(即将复杂度降到)的问题便被提上日程,具体而言便是将attention计算线性化。
2024-12-14 00:09:16
1341
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅