
论文
文章平均质量分 84
文献精读
cowardm
这个作者很懒,什么都没留下…
展开
-
CVPR23 Highlight|拥有top-down attention能力的vision transformer
由于这篇文章中的AbSViT都是用ImageNet supervision去pretrain的,而我们发现这样子学到的top-down attention其实比较弱(因为ImageNet基本都是single-object classification,并不涉及multi-object的top-down attention),所以下一步可能需要用unsupervised或者vision-language pretraining的方式去学习一个更强的top-down attention。原创 2023-05-31 17:22:08 · 440 阅读 · 0 评论 -
重新聚焦Attention在微调大模型中的重要性
方法继承了之前关于top-down attention的工作,意思就是我们不想关注到图片中所有的object,而是只去关注和当前任务相关的object。简单来说,top-down attention是一种可以根据目前在做的task来相应地调整模型的attention的机制。功能选择模块首先选择与任务相关的通过根据令牌与任务嵌入的相似性重新加权令牌,然后选择。通过在渠道维度上应用特定于任务的线性变换来与任务相关的渠道。原创 2023-05-31 17:44:03 · 217 阅读 · 0 评论 -
【cvpr2022】TransWeather: Transformer-based Restoration of Images Degraded by Adverse Weather Conditio
与 Q、K 和 V 从同一输入中获取的自注意力变换器块不同,这里的 Q 是天气类型可学习嵌入,而 K 和 V 是从变换器编码器的最后阶段获取的特征。Intra-PT 处理从原始补丁创建的子补丁,并挖掘较小补丁的特征和细节。此外,如果雨的强度很大,当它打在场景中的物体或人的表面时会产生飞溅效果。然而,我们认为当补丁像 ViT [9] 中的那样大时,我们无法过多地关注补丁中的信息。在这里,多头自注意力机制将天气类型查询作为输入,并将其与从 transformer 编码器提取的特征中获取的键和值相匹配。原创 2023-05-24 21:43:31 · 1081 阅读 · 4 评论 -
【CVPR2022】All-In-One Image Restoration for Unknown Corruption
在本文中,我们提出了一种不受损坏类型和级别先验影响的一体式图像恢复网络 (AirNet)。同时,该方法是一种从不同损坏中恢复图像的一体式解决方案,这对于先验难以预知或退化可能随时间和空间变化的各种实际场景具有竞争力。原创 2023-05-22 22:35:56 · 2035 阅读 · 1 评论 -
Revisiting the Transferability of Supervised Pretraining: an MLP Perspective
虽然SL,SL-MLP,BYOL在开始时的Feature mixtureness都较高,随着训练的进行,SL专注在预训练域pre-D上的表征,预训练域pre-D和迁移域eval-D特征分布间的距离开始拉远,而SL-MLP和BYOL的预训练域pre-D和迁移域eval-D特征分布间的距离则一直保持在一个很高的状态。相比于之前的对监督学习和无监督学习的分析,这次针对迁移性能的revisit,从监督学习和无监督学习在训练时结构上的差异出发,指出了之前被大家忽视的MLP projector是其中的关键因素。原创 2023-05-19 21:27:46 · 168 阅读 · 0 评论 -
CVPR 2023|EfficientViT:让ViT在多个部署场景实现实时推理
本文详细分析了现有ViT的推理速度瓶颈,提出了EfficientViT以实现不同部署场景下的实时推理,其基本模块由三明治结构和级联组注意力构成。在多个任务和数据集上的实验展示了模型的性能和速度。随着各个领域的研究人员对ViT的深入探索,模型的潜力正在被不断发掘。研究者希望通过本文能给ViT轻量化和在有实时性要求的场景下广泛应用提供灵感。在未来工作中,研究者将尝试通过网络结构搜索进一步提高效率,减少模型参数,以及探索如何扩展到不同任务和数据模态下的Transformer中。原创 2023-05-19 21:44:35 · 1414 阅读 · 0 评论