【ICML 2023】Hiera详解:一个简单且高效的分层视觉转换器
0. 引言
虽然现在各种各样版本的 Vision Transformer 模型带来了越来越高的精度
,但是同样地,在各种不同版本中存在的各种复杂结构
也带来了复杂性
的增加。
然而,Hiera
文章的作者认为:增加的各种复杂结构是不必要的
。作者提出了一个非常简单的分层视觉变压器 Hiera
,它比以前的模型更准确
,同时在推理和训练过程中都要快得多
。
论文名称:Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles
论文地址:https://arxiv.org/abs/2306.00989
项目地址:https://github.com/facebookresearch/hiera
1. 模型介绍
为了方便大家对模型的理解,首先介绍模型整体结构,然后分别介绍