Exponentially Faster Language Modelling

828 篇文章

已下架不支持订阅

本文介绍了 UltraFastBERT,一种使用神经元指数部分进行个体推断的BERT变体,实现了78倍CPU加速和40倍批量推理加速。仅使用0.3%的神经元,性能与标准BERT相当。

本文是LLM系列文章,针对《Exponentially Faster Language Modelling》的翻译。

指数级快速的语言建模

摘要

语言模型只需要使用神经元的指数部分来进行个体推断。
作为证据,我们提出了UltraFastBERT,这是一种BERT变体,在推理过程中使用0.3%的神经元,同时与类似的BERT模型不相上下。UltraFastBERT在4095个神经元中仅选择性地参与每一层推断的12个。这是通过用快速前馈网络(FFF)代替前馈网络来实现的。
虽然目前还没有真正有效的实现来释放条件神经执行的全部加速潜力,但我们提供了比优化的基线前馈实现高78倍加速的高级CPU代码,以及比等效的分批前馈推理高40倍加速的PyTorch实现。
我们发布我们的训练代码、基准测试设置和模型权重地址

1 引言

2 模型

3 推理

已下架不支持订阅

这是一个关于非线性系统稳定性的结论。假设我们有一个非线性系统的状态方程为 x' = f(x),其中 x 是系统的状态向量,f 是可微的非线性函数。如果我们将系统的状态平衡点设置为 x=0,那么系统的稳定性取决于其局部行为。 现在假设我们有一个满足条件 If V(x)的积分 < -BV(x),其中 B>0,V(x)是一个正定的、二次型的函数,表示系统的能量函数。这个条件意味着系统的能量函数在系统的状态空间中是严格递减的,且递减速度至少是 BV(x)。因此,系统的能量函数在平衡点 x=0 处是指数级别的稳定。 为了更好地理解这个结论,我们可以考虑一个简单的例子。假设我们有一个单摆系统,其状态向量为 x=[θ,θ'],其中 θ 是摆的角度,θ' 是角速度。我们可以定义系统的能量函数为 V(x) = 1/2 θ'^2 + g cos(θ),其中 g 是重力加速度。这个能量函数是一个正定的、二次型的函数,表示系统的总能量。如果我们计算 If V(x)的积分 < -BV(x),其中 B>0,我们可以得到条件为 cos(θ) > 0,即摆的初始角度必须小于 π/2。这个条件意味着系统的能量函数在摆的最低点处是最小的,也就是说,系统的能量函数在平衡点处是稳定的。因此,当我们扰动摆的初始角度时,系统会回到平衡点处,且回到平衡点的速度是指数级别的。 综上所述,如果满足 If V(x)的积分 < -BV(x) 这个条件,那么系统的平衡点 x=0 是指数级别稳定的。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值