这是一篇北大与华为诺亚方舟实验室联合在2021年联合发表的论文,已经被2022年的cvpr收录。
github地址:https://github.com/hahnyuan/PTQ4ViT
ViT量化的难点:
如何找到合适的量化间隔?
如何在量化时保持self-attention map的相对位置?
是否可以混合精度地量化?
第一个和第三的问题更具一般性,作者提出的trick理论上来说可以泛化到其它网络中。
标准的transformer层有两个模块:Multi-head self attention(MSA)和Multi-layer perceptron(MLP):
其中:



最低0.47元/天 解锁文章
1897





