21 HRFormer：High-Resolution Transformer for Dense Prediction

error:404..

已于 2022-09-27 21:19:07 修改

阅读量346

点赞数 1

分类专栏：姿态估计

于 2022-09-27 21:13:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_41845951/article/details/127078440

版权

在这里插入图片描述

1 背景

ViT 的提出让人们看到了 Transformer 在图像分类任务上的潜力，紧随其后还有很多相关的改进，如知识蒸馏、更深的网络结构、引入卷积等方法，但 ViT 及其类似的方法都缺失了局部空间的信息，难以用于密集预测。还有一些方法聚焦在了使用 Transformer 来实现分割、检测等密集预测任务。

2 动机

由于 ViT 等方法使用 16x16 作为输入 patch 的大小，且网络是单个分辨率的，缺失了处理多尺度目标的能力，所以作者提出了一个 High-Resolution Transformer (HRFormer)，来提出丰富的空间信息并且为密集预测提供多分辨率的特征表达。

3 方法

HRFormer 的结构类似于 HRNet，其结构如图 1，图 1 的左半部分表示了 local-window self-attention 如何更新 2D 输入表达，每个 window 内部的 attention 是独立进行的：

首先，在 stem 和第一个 stage 都使用了卷积，类似于 [11,49]，它们也证明了在浅层使用卷积的效果是比较好的
接着，通过并行的使用 medium 和 low resolution 的 streams 来加强高分辨率 stream，从而提升高分辨率特征的表达。使用多分辨率特征后，HRFormer 能够进行多尺度的建模。
最后，HRFormer 通过 multi-scale fusion module 进行了 multi-

最低0.47元/天解锁文章

博客等级

码龄7年

40
原创

74
点赞

544
收藏

36
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

HigherHRnet详解之实验复现
流星芭比锤: 你好大佬，为什么我用HigherHRNet预训练模型跑出来的结果很差，有关节点乱连，还有一个人重复检测很多次的问题啊
TSN实验过程
_养乐多_: [code=python] (base) PS D:\AIAlgorithm\IntelligentDetectionVehicle\mmaction> python data_tools/build_file_list.py ucf101 ../data/rawframes/ --level 2 --format rawframes --sh Traceback (most recent call last): File "D:\AIAlgorithm\IntelligentDetectionVehicle\mmaction\data_tools\build_file_list.py", line 4, in <module> from mmaction.datasets.utils import (parse_directory, ModuleNotFoundError: No module named 'mmaction.datasets.utils' [/code]请问有没有知道这个错误怎么解决？
使用ResNet18处理cifar10数据集
charlie_jiuxing: 求问博主，如何进行中间层的特征提取呀
Supervised Contrastive Learning浅读
zt_20110902: 您好，可以加下微信吗？有不懂的地方想问下
Supervised Contrastive Learning浅读
zt_20110902: 那个损失函数中的上标为什么是2N？

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。