CV技术指南 | 「乘法变加法」!MIT清华校友全新方法优化Transformer:Addition is All You Need

本文来源公众号“CV技术指南”,仅用于学术分享,侵权删,干货满满。 

原文链接:「乘法变加法」!MIT清华校友全新方法优化Transformer:Addition is All You Need

【题外话】希望今天一路长!!!

0 前言 

Transformer计算,竟然直接优化到乘法运算了。MIT两位华人学者近期发表的一篇论文提出:Addition is All You Need,让LLM的能耗最高降低95%。

LLM能耗的疯狂增长,甚至已经引起了联合国的注意,成为了不容小觑的能源消耗者。

据统计,2023年初ChatGPT服务的平均用电量为每天564兆瓦时,相当于18000个美国家庭每天的总用电量。

谷歌的情况更加严峻。最坏的情况下,谷歌AI服务消耗的电力可能和一整个爱尔兰相当,约为每年29.3 TWh。

要在提升推理速度的同时降低大模型的能耗,减少神经网络所需的计算量才是关键。

而LLM等大规模神经网络,大部分计算量正是消耗在浮点级精度的矩阵乘法上。

从线性注意力机制到量化,大多数Transformer的优化都离不开对于乘法效率的大幅提高。要么减少运算操作次数,要么减少操作数的位数。

但如果从乘法运算这个更加底层的逻辑出发,两位华人研究者提出,可以用一个整数加法器以高精度近似进行浮点数乘法运算,即L-Mul乘法算法

论文地址如下:https://arxiv.org/abs/2410.00907

相比量化过程中的FP8乘法,L-Mul能达到更高的精度,而且运算量显著减少。

实验结果显示,在张量处理硬件中应用L-Mul操作能将逐元素浮点张量乘法的能量成本降低95%,点积的能量成本降低80%。

此外,L-Mul可以直接集成到各个级别的现有模型中,无需额外训练,甚至能无损替换注意力机制中所有的矩阵、元素级别的浮点数乘法。

整体而言,L-Mul方法专注于提高对张量进行算术运算的效率——这与当前在I/O和控制优化方面的研究是相互独立但又相辅相成的。

由此作者认为,真正高能效、高计算效率的人工智能计算将从I/O、控制流,和算术运算的全面优化整合中产生。

1 论文简介

大多数机器学习模型,包括神经网络,都使用浮点张量来表示它们的输入、输出和可训练参数。

其中,典型的选择是32位和16位浮点张量,即fp32和fp16

在现代计算硬件中,浮点数之间的乘法比加法运算消耗更多的能量,浮点数运算也显然比整数更加昂贵。

用n代表数字位数,那么整数加法的计算复杂度仅有O(n);而对于指数部分有e位、尾数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值