留个底
计算机视觉领域有很多任务是位置敏感的,比如目标检测、语义分割、实例分割等等。为了这些任务位置信息更加精准,很容易想到的做法就是维持高分辨率的feature map,事实上HRNet之前几乎所有的网络都是这么做的,通过下采样得到强语义信息,然后再上采样恢复高分辨率恢复位置信息,然而这种做法,会导致大量的有效信息在不断的上下采样过程中丢失。
而HRNet通过并行多个分辨率的分支,加上不断进行不同分支之间的信息交互,同时达到强语义信息和精准位置信息的目的。
HRNet的Backbone设计

一文读懂 HRNet - 极市社区
https://bbs.cvmart.net/articles/3900