©PaperWeekly 原创 · 作者 | 姜润青
单位 | 中山大学博士生
研究方向 | 模型压缩与加速
训练后量化(PTQ)已成为降低 Vision Transformers(ViTs)存储和计算成本的重要方法之一。现有方法主要聚焦量化器的设计来处理 ViTs 中的激活值,然而这些方法低估了权重量化带来的信息损失,导致性能退化,特别是在低比特量化情况下。
此外,这些方法大多采用对数变换来量化 ViTs 中的 Softmax 层激活,然而对数变换优先考虑零附近信息量较小的值,引入了额外的冗余,限制了方法的量化效率。
为了解决这些问题,本文提出了一种针对 ViTs 的 PTQ 方法,称为 AIQViT。首先,我们设计了一种架构感知的低秩补偿机制,引入了可学习的低秩权重来补偿权重量化引起的性能下降;其次,我们设计了一个动态聚焦量化器来适应 Softmax 层激活的不平衡分布,该量化器动态选择最有价值的区间以获得更高的量化分辨率。
我们在五个视觉任务(包括图像分类、目标检测、实例分割、点云分类和点云组件分割)上对所提方法的有效性进行了验证。论文信息如下:
论文题目:
AIQViT: Architecture-Informed Post-Training Quantization for Vision Transformers
收录会议:
AAAI 2025
论文链接:
https://arxiv.org/abs/2502.04628
准备知识(Preliminaries)
ViT
ViT 主要由嵌入层和一些堆叠的 ViT 网络块组成,有助于捕捉隐藏在不同图像块中的长距离关系,在一个网络块中,其运行机制如下:
其中 MHSA 代表多头注意力机制,MLP 代表多层感知机网络。
量化器
均匀量化器得益于其良好的硬件兼容性,从而被广泛使用,其定义为: