CPU跑大模型怎么加速?

最新推荐文章于 2025-09-08 14:19:47 发布

原创

最新推荐文章于 2025-09-08 14:19:47 发布 · 1.7k 阅读

·

23

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #python #语言模型 #推理加速 #大模型

一、概念

近几年，大模型的规模越做越大。普通码农没几张显卡几乎都跑不动动辄几百B的模型了。当然，随着SLM进一步发展，移动端、PC端部署SLM变得轻松了起来。即便只有CPU也能带得起3B以内的SLM，只不过推理速度比较感人。因此，我们需要通过一些优化来使得CPU也能高效地运行大型模型推理。这里，我们一起来看看HuggingFace教程给出的推理加速方案。

二、python实现

1、BetterTransformer

BetterTransformer 通过其快速路径（Transformer函数的原生PyTorch专门实现）执行来加速推理。快速路径执行中的两种优化如下：

将多个连续操作组合成一个单一的“内核”，以减少计算步骤的数量
跳过padding tokens的固有稀疏性，以避免使用嵌套张量进行不必要的计算

BetterTransformer还将所有注意力操作转换为使用更节省内存的缩放点积注意力。但需要注意不是所有模型都支持这个方法，具体可以查看官网链接。

from transformers import AutoModelForSequenceClassific

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。