迈入大模型时代的深度学习:使用 Flash Attention 技术让 Transformer 起飞

Transformer 是 ChatGPT 等大语言模型的核心技术之一,而注意力机制是其的关键部分。但是,标准的注意力实现具有二次时间和内存复杂度,使其在长序列任务上变慢并消耗大量显存。这限制了 Transformer 能够建模的上下文长度,同时使得大尺度模型的训练和推理时间延长。

FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness [1] 提出了一种称为 Flash Attention 的新注意力算法,该算法减少了注意力机制所需的内存访问次数。这使得注意力运算更快速且内存高效,同时仍保持数值精确性。

图片

图|FlashAttention 的运行机制 [1]

Flash Attention 运用了两种主要技术:

  1. 分块 - 它将输入划分成块,并单独处理每个块的注意力。
  2. 重计算 - 它只存储足够的信息,以便在反向传播期间重新计算注意力矩阵,而不是存储整个矩阵。这减少了内存使用。

与标准注意力相比,Flash Attention 通过减少内存访问次数从而提高训练速度并降低显存占用量。相比于基准,Flash Attention在GPT-2和BERT等 Transformer 模型上的训练速度提升可达 3 倍以上。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

farfarcheng

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值