基于faster rcnn的实例分割模型, 当然它也是一个通用性很强的模型, 可以扩展用于目标检测、人体关键点检测等。
较于faster的改动是,head 部分除了classification和regression外, 增加了预测实例分割的mask的分支,增肌了很少的计算成本,效果却很显著。
考虑到faster rcnn中ROI Pooling存在量化误差, 使得前后像素不匹配,这对检测来说,影响并不大, 但是对逐像素预测的分割任务来说, 影响却很大, 因此,mask rcnn提出ROI Align方法。避免一切量化误差, 保留过程中浮点数位置, 并采用插值方法,使得前后像素位置可以保持对应。 大大提升了实例分割的精度。
考虑在pose estionmation中的应用, 这里mask部分预测K个 m*m的mask,m*m是分辨率,K是关键点种类(COCO为17)。ground truth的mask是仅关键点那一点是1,其余点均为0的one-hot mask。 实验表明,其精度和速度略好于17年的openpose。
有时间阅读一下源码, 主要了解一下检测方面的大概流程。