关于端侧大模型芯片化的若干趋势思考......

转载于 2025-10-23 08:02:13 发布 · 99 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247683668&idx=3&sn=f59b9ca677a16bfc032a890ab2573973&chksm=cf147863fe4db332ffcc413874c1548d58ad984f278cdaa826040106668b94b32c981ee90cba&scene=126&sessionid=0

作者 | 张凯@知乎编辑 | 大模型之心Tech

原文链接：https://zhuanlan.zhihu.com/p/1959223427115250831

点击下方卡片，关注“大模型之心Tech”公众号

戳我-> 领取大模型巨卷干货

本文只做学术分享，已获转载授权，欢迎添加小助理微信AIDriver004做进一步咨询

学校毕业以后一直从事芯片算法行业，中间经历了CNN的如日中天，ViT的异军突起，再到如今LLM/VLM的一片火热，算法层面早已发生了翻天覆地的变化。
未来端侧智能的上限究竟有多高，我们还没有见到天花板；但是可以预见的是，具身智能，手机，音箱，摄像头，各种盒子，各种端侧场景的需求是无限广阔的，这既是历史性的挑战，更是时代赋予的机遇。
目前市场上也有一些端侧的芯片，这里聊的主要是100T算力以内的芯片，例如爱芯元智、算能都相关的芯片，也能支持LLM的推理，但是不管如何，其实还是面向上一代的ViT设计的，其效率在LLM上还没有达到上限。

本文还是主要从算法的角度聊一聊，框架和部署技术对未来芯片设计的影响。

DSA注意力机制

注意力机制的演进

Transformer架构长期以来主导了大模型领域，其自注意力机制的计算复杂度与序列长度呈平方关系，这对prefill阶段的算力需求和decode阶段的带宽（KVcache大幅度增加）需求都提出了巨大的挑战。早在ViT和Transformer时代，关于Transformer的结构就有了一系列的改进，Performer（ICLR'21），Reformer（ICLR'20），lnformer（AAAI'21 best paper），但是没有一个真正广泛应用的。原因只有一个，不是真正的强需求。毕竟即使是在2025年，某些场景用ResNet18（2015）和Yolov3（2018）也是足够的。但是在大模型时代，一切都不一样了。视觉大模型确实相比过去的小模型产生了巨大的性能提升，泛化性也得到了极大的加强。而语言大模型，则打开了智能的天花板。所以Transformer的支持变得势在必行。

为了应对自注意力机制的瓶颈，线性注意力（Linear Attention）机制应运而生，通过将注意力计算分解为核函数近似，将计算复杂度降低至线性水平。类似地，RWKV、Mamba，以及近期的Qwen3-next的DeltaNet等都是类似的思路。还有另一条路线是，则是以DSA为代表的稀疏注意力，如果不能解决的瓶颈，如果将n变小也是可行的，该工作也是今年ACL（2025）的best paper。类似地，kimi的MoBA也是类似的思路，其思想也是非常的优雅。除此以外，还有一条隐含的路线，张祥雨老师提到用多智能体协作解决上下文的问题，一个做全局理解，一个做局部感知，典型的分而治之的思想，大巧不工。那这些对端侧芯片有什么影响呢？其实影响不大，只要不出现奇奇怪怪的算子，能够在NPU上融合成一个大算子，计算效率依然会非常高。反而在这里面是通道数的大小，head数的大小影响更大，SRAM是否能够放下，可能是更关键的瓶颈。

MoE机制

动态稀疏。

过去十年，动态机制对于网络性能的提升是非常大的，例如动态卷积（Dynamic Conv），条件卷积（CondConv），可变形卷积（DCN），动态FPN。稀疏技术，学术界一直探索的比较多，工业界却一直很难用。我们团队在CNN时代和Transformer时代一直也有在研究稀疏技术，例如NeurIPS'22的SAViT；今年尝试联合用稀疏和低秩分解做大模型的压缩，也中了今年的EMNLP，但总体来说，还是非常定制化。

真正给稀疏带来广泛应用的是MoE技术，是动态稀疏，这也是很久前一直想做的动态稀疏，奈何以前芯片一直支持的不好。MoE网络在推理阶段只激活一部分专家。从推理的角度看，MoE非常的有意思，做个对比，14B的稠密模型和30B-A3B的稀疏模型（激活3B），后者性能更好，推理时还省算力，省带宽，小模型不管是量还是价，都“超越”了大模型的性能，标准的以小胜大的典范。只有一个小缺点，内存需求更大。当然这是单batch的理想情况，多batch的时候则非常糟糕，decode阶段的时候带宽几乎等同于30B，这个时候就不如稠密模型了。（插个话，我之前面试的时候，有时会问一道数学题，对于MoE模型，计算多batch下平均激活专家的期望数。）云端推理的时候，MoE又可以非常友好，当所有专家都被选取的时候，其实是可以省算力的。

回到端侧芯片上，最主要的场景可能还是单batch的场景。当下的趋势是，MoE模型的稀疏性进一步加大，例如蚂蚁最近的MoE模型（100B-A6.1B）非常出色，其端侧的模型（16B-A1.4B）也是令人惊艳，这都进一步加到了动态稀疏的趋势，MoE的内存要求会更大。最后总结一下，未来MoE技术对于芯片的影响是巨大的，大内存，中带宽，中算力。更进一步的，工业界当下更要关注moe的压缩后面该怎么压缩，类似今年MoNE的工作（如何降低内存）。

NVFP4

低比特量化。

Deepseek采用FP8训练，打开了低比特量化的新时代。而在推理阶段，端侧大模型对低比特量化（4bit及以下）提出了更加激进的需求，其技术也呈现出了不同的特性：

1）weight-only量化，针对decode阶段的带宽瓶颈，只对权重做压缩，计算还是保持原精度计算，例如GPTQ、AWQ等；

2）低精度浮点vs.定点数，这其实是两条路线，云端GPU从FP16/BF16往下做FP8/FP4，端侧芯片则希望是继续原来的INT8/INT4技术路线，例如后摩的RPTQ工作。在细粒度量化下，其实两者是殊途同归的；

3）细粒度量化，以往的权重是per-channel量化，激活是per-tensor量化，当下则是都拆分成更细的粒度（例如per-group）去做，量化精度显然更高；

4）动态量化vs.静态量化。这里主要是针对激活值的，由于任务的不确定性，像过去直接离线确定一个激活值的范围挑战是比较大的，但是支持动态量化，显然在芯片上有较大的成本，这个是比较头疼的trade-off。

最后，我还觉得混合量化是未来的趋势，大模型天然的层内和层间的数值不平衡就适合混合量化去处理，我们今年也有一篇做混合量化相关的工作被接收EMNLP接受。未来针对MoE模型，混合量化应该还有更大的用武之地，业界应该投入更多的力量去探索和研究。

Token压缩。

这一方向的工作其是Transformer新带来的压缩方向，Token维度天然适合去进行压缩，这极大地降低了端侧大模型的应用门槛。对于标准的VLM（例如1BViT+3BLLM）的模型而言，文本token为数百个，但是视觉token为上千，显然视觉Token带来的计算量是非常庞大的，但其实冗余度非常高。从早期的Fastv（ECCV'24），PyramidDrop（CVPR'25），Holov（NeurIPS'25），LightVLM，SpecPrune-VLA等等，最近这方面的工作是井喷式的。对于芯片的影响，则是多多益善，吃到就是赚到。

以上四个变化，是我觉得这一年以来相对确定性的变化，对未来端侧芯片的设计都有着较大的影响。兵马未动，粮草先行，端侧芯片其实一直严重滞后于大模型的发展，未来希望早日见到可用的高效端侧芯片。