论文名称:Panoptic SegFormer
论文链接:https://www.aminer.cn/pub/61397b715244ab9dcb323c6f?f=cs
语义分割和实例分割是两个重要且相互关联的视觉问题,它们之间的潜在联系使得全景分割可以统一这两个任务。在全景分割中,图像信息被分成两类:Things 和 Stuff。其中 Things 是可数的实例 (例如,人、汽车、自行车),每个实例都有一个惟一的 id,以区别于其他实例。Stuff 是指无定形和不可数的区域 (如天空、草原和雪),没有实例 id。
Things 和 Stuff 之间的差异也导致了不同的处理方式。许多工作只是将全景分割分解为 Things 实例分割任务和 Stuff 语义分割任务。然而,这种分离处理策略会增加模型的复杂性和不必要的工件。虽然一些研究考虑自底向上的实例分割方法,但这种方法仍然保持了类似的分离策略。还有一些方法在处理 Things 和 Stuff 任务时,试图通过在一个统一的框架中来简化全景分割 pipeline 来实现。
该研究使用 ResNet-50 作为网络主干,在 COCO test-dev 拆分中实现了 50.0% 的 PQ,在无需附属条件(bells and whistles)的情况下,结果显著优于 SOTA 方法。此外,使用性能更强的 PVTv2-B5 作为网络主干,Panopoptic SegFormer 在 COCO val 和 test-dev 拆分上以单尺度输入实现了 54.1%PQ 和 54.4%PQ 的新记录。
AMiner,让AI帮你理解科学!https://www.aminer.cn