斯坦福博士提出超快省显存Attention,GPT-2训练速度提升3.5倍,BERT速度创纪录

斯坦福大学的研究人员提出了一种名为FlashAttention的超快、节省内存的注意力算法,它在训练BERT和GPT-2时分别提升了15%和3.5倍的速度,同时内存效率大幅提高。该算法通过IO感知和块递增计算等技术,避免了大型注意力矩阵在GPU上的物化,从而在实际运行时间和内存访问上取得了显著提升。
白交 发自 凹非寺
量子位 | 公众号 QbitAI

Flash is all you need!

eee90c6f9e8aaf19b4b0a52525bedfd3.png

最近,一个超快且省内存的注意力算法FlashAttention火了。

通过感知显存读取/写入,FlashAttention的运行速度比PyTorch标准Attention快了2-4倍,所需内存也仅是其5%-20%。

8e11ab3e463078871d5a859def1db320.png

而它的表现还不止于此。

  • 训练BERT速度相较于MLPerf训练记录提升15%;

  • 训练GPT-2的速度提高3.5倍;

  • 训练Transformer的速度比现有基线快。

网友们纷纷表示惊叹:Great Job!这项工作对我来说很有用。

f114cefc4d5c391b3a68657f49c0a4de.png

来看看这是一项什么样的研究~

FlashAttention

本文提出了一种IO感知精确注意力算法。

随着Transformer变得越来越大、越来越深,但它在长序列上仍然处理的很慢、且耗费内存。(自注意力时间和显存复杂度与序列长度成二次方)</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值