AAAI 2025 | 中山大学提出AIQViT:面向视觉Transformer的结构感知后训练量化方法

57e21bbc8bd6800898bf8ca6e9f4062c.gif

©PaperWeekly 原创 · 作者 | 姜润青

单位 | 中山大学博士生

研究方向 | 模型压缩与加速

训练后量化(PTQ)已成为降低 Vision Transformers(ViTs)存储和计算成本的重要方法之一。现有方法主要聚焦量化器的设计来处理 ViTs 中的激活值,然而这些方法低估了权重量化带来的信息损失,导致性能退化,特别是在低比特量化情况下。

此外,这些方法大多采用对数变换来量化 ViTs 中的 Softmax 层激活,然而对数变换优先考虑零附近信息量较小的值,引入了额外的冗余,限制了方法的量化效率。 

为了解决这些问题,本文提出了一种针对 ViTs 的 PTQ 方法,称为 AIQViT。首先,我们设计了一种架构感知的低秩补偿机制,引入了可学习的低秩权重来补偿权重量化引起的性能下降;其次,我们设计了一个动态聚焦量化器来适应 Softmax 层激活的不平衡分布,该量化器动态选择最有价值的区间以获得更高的量化分辨率。 

我们在五个视觉任务(包括图像分类、目标检测、实例分割、点云分类和点云组件分割)上对所提方法的有效性进行了验证。论文信息如下:

7756f1ecf201e512a887393ecf1bf79c.png

论文题目:

AIQViT: Architecture-Informed Post-Training Quantization for Vision Transformers

收录会议:

AAAI 2025

论文链接:

https://arxiv.org/abs/2502.04628

97a7e73146b152c3f23e6ba51335cb14.png

准备知识(Preliminaries)

ViT

ViT 主要由嵌入层和一些堆叠的 ViT 网络块组成,有助于捕捉隐藏在不同图像块中的长距离关系,在一个网络块中,其运行机制如下:

fbfe4a7c9e6e74e11ac100d333d76ed1.png

其中 MHSA 代表多头注意力机制,MLP 代表多层感知机网络。

量化器

均匀量化器得益于其良好的硬件兼容性,从而被广泛使用,其定义为:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值