本文是LLM系列文章,针对《Exponentially Faster Language Modelling》的翻译。
摘要
语言模型只需要使用神经元的指数部分来进行个体推断。
作为证据,我们提出了UltraFastBERT,这是一种BERT变体,在推理过程中使用0.3%的神经元,同时与类似的BERT模型不相上下。UltraFastBERT在4095个神经元中仅选择性地参与每一层推断的12个。这是通过用快速前馈网络(FFF)代替前馈网络来实现的。
虽然目前还没有真正有效的实现来释放条件神经执行的全部加速潜力,但我们提供了比优化的基线前馈实现高78倍加速的高级CPU代码,以及比等效的分批前馈推理高40倍加速的PyTorch实现。
我们发布我们的训练代码、基准测试设置和模型权重地址。
本文介绍了 UltraFastBERT,一种使用神经元指数部分进行个体推断的BERT变体,实现了78倍CPU加速和40倍批量推理加速。仅使用0.3%的神经元,性能与标准BERT相当。
已下架不支持订阅
1445

被折叠的 条评论
为什么被折叠?



