自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 DeltaNet并行化处理的部分关键推导

比起基于softmax attention的Transformer架构(运算复杂度与序列长度的平方成正比),Linear Model架构(Transformers with linear attention and state-space models)将运算的时间与空间复杂度降至线性,使其能在理论上更快地处理长序列任务。但由于其递归形式(逐元素运算),使得没法利用并行计算单元,所以实际训练效率较低。分chunk并行处理的形式在递归和并行之间找到了兼衡,成为Linear Model的必由之路。但当前的Lin

2025-01-28 15:22:59 1583

原创 GLA算子(Gated Linear Attention)的推导及思考

当今的大语言模型基本均是基于transformer架构而构建的,基于softmax-attention计算的transformer架构在训练时具有很好的并行性能,但transformer重要问题之一是其计算的时间、空间复杂度均与序列的长度成二次关系。而随着序列长度的不断增加,transformer架构的计算量是难以承受的,这是大模型难以处理长文本问题非常重要的原因。于是如何将transformer计算线性化(即将复杂度降到)的问题便被提上日程,具体而言便是将attention计算线性化。

2024-12-14 00:09:16 1341

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除