97、我对 AI 模型调优的经验和认识

最新推荐文章于 2025-05-12 01:01:33 发布

董董灿是个攻城狮

最新推荐文章于 2025-05-12 01:01:33 发布

阅读量494

点赞数

CC 4.0 BY-SA版权

分类专栏： CV视觉算法入门与调优文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/dongtuoc/article/details/136548151

CV视觉算法入门与调优专栏收录该内容

104 篇文章 ¥59.90 ¥99.00

订阅专栏

超级会员免费看

本文探讨了AI模型调优的经验，强调了软硬协同在优化过程中的关键作用。作者指出，不同的AI平台需要不同的优化手段，且自研芯片能更好地匹配独特算法。AI软件栈分为应用层、中间层、编译器和驱动层，每个层次都有优化点。对于AI模型的性能提升，需要整个软件栈的协同工作。

做 AI 算法调优一些年了，这些年中接触了不少模型，也做过不少在 ASIC 芯片进行模型加速的案例。

在接触的模型中，有一些模型有着非常奇怪的分支结构，有的还有奇怪的 tensor shape，还有的有这奇怪的自定义算法。但在模型优化时，为了将一个 AI 模型性能调到最优，也是无所不用其极，能用到的办法几乎都会尝试一遍。

但是，有方法不代表有效。

很多时候，在一个 AI 平台上有效的优化手段，换到了另一个平台上就失效了。就好像我们可以在 Intel CPU 上使用 avx2 指令集来做优化，但是换到 GPU 上就不行，因为它不支持这个指令集。

其实现在，整个 AI 模型的开发和优化，越来越往软硬协同方向发展。什么意思呢？

大概就是，在设计硬件架构和芯片指令集的时候，就需要软件人员参与进来，而不是硬件人员埋头设计。要软硬件开发人员一起来设计，这就要求硬件人员懂算法和软件，软件人员懂硬件结构。这样设计出来的芯片，在软件同事进行算法开发时，才能发挥出最大的硬件潜能，才能榨干芯片的每一处性能。

这也是为什么很多大厂，比如特斯拉都在自研芯片。一方面是为了摆脱对芯片厂家的依赖，另一方面则是，可以依照自己家独特的算法，比如一些自定义算法或模型，自定义的设计更适用于自家业务的芯片结构，这样做出来的产品性能才好。

工作这些年，有幸参与过一些 AI 芯片的硬件设计讨论，也有幸参与过一些软件方案的设计，下面就谈一下我对这方面的感想吧，写的随意，权当随笔了。

AI 软件栈

说到 AI 的软件，你会想到哪里？是 pytorch 调用的模型接口，还是用 cuda 实现一个 kernel？亦或是 linux driver 来支持一个

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

董董灿是个攻城狮 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。