直接回归和高斯热图

最新推荐文章于 2024-07-18 03:11:02 发布

十二壳

最新推荐文章于 2024-07-18 03:11:02 发布

阅读量1.3k

点赞数

文章标签：回归深度学习人工智能

原文链接：https://zhuanlan.zhihu.com/p/53057942

版权

原文链接：Numerical Coordinate Regression=高斯热图 VS 坐标回归 - 知乎 (zhihu.com)

（1）采用全连接层直接回归坐标点，例如yolo-v1。该类做法的优点是输出即为坐标点，训练和前向速度可以很快，且是端到端的全微分训练；缺点是缺乏空间泛化能力，也就是说丢失了特征图上面的空间信息。前面提到了空间泛化这个词，空间泛化是指模型训练期间在一个位置获得的知识在推理阶段推广到另一个位置的能力，举例来说，如果我在训练阶段有一个球一直在图片左上角，但是测试阶段球放在了右下角了，如果网络能够检测或者识别出来，那么就说该模型具备空间泛化能力。可以看出坐标点回归任务是非常需要这种能力的，因为我不可能每一个位置的图片都训练到。全卷积模型具备这种能力的原因是权重共享，然而对于全连接层，在2014年的Network in network论文指出fully connected layers are prone to overfitting, thus hampering the generalization ability of the overall network。也就是说如果采用全连接输出坐标点方式是会极大损害空间泛化能力的，其实从理论上也很容易分析出来：在训练阶段有一个球一直在图片左上角，reshape拉成一维向量后，全连接层的激活权重全部在上半部分，而下半部分的权重是没有得到训练的，当你测试时候输入一张球放在了右下角图片，拉成一维向量后，由于下半部分权重失效，理论上是预测不出来的，即没有空间泛化能力。而卷积操作由于权重共享，是可以有效避免的。总结一下：全连接方式所得权重严重依赖于训练数据的分布，非常容易造成过拟合，这个现象我在做关键点项目预测时候发现确实很严重。

(2) 采用预测高斯热图方式，然后argmax找出峰值对应的索引即为坐标点，例如cornernet、grid-rcnn和cpn等等。该类做法优点是精度通常高于方法(1)；缺点也很明显，从输入到坐标点输出不是一个全微分的模型，因为从heatmap到坐标点，是通过argmax方式离线得到的(其实既然argmax不可导，那就用soft argmax代替嘛，有论文确实是这么做的)。并且由于其要求的输出特征图很大，训练和前向速度很慢，且内存消耗大。

这种方法在人体姿态估计领域是主要方法，几乎目前所有新的模型输出都是高斯热图。以单人姿态估计为例，输入是一张仅仅包含一个人的图片，输出是所有关键点的高斯热图，label是基于每个关键点生成的高斯图。如果每个人要回归17个关键点，那么预测输出特征图是(batch,h_o,w_o,17)，即每个通道都是预测一个关节点的热图，然后对每个通道进行argmax即可得到整数型坐标。

前面说过基于高斯热图输出的方式会比直接回归坐标点精度更高，原因并不是高斯热图输出方式的表达好，而是由于其输出特征图较大，空间泛化能力较强导致的，那么自然能解释如果我依然采用(1)直接回归坐标的方法预测，但是我不再采用全连接，而是全卷积的方式依然会出现精度低于高斯热图的现象，原因是即使全卷积输出，但是像yolo-v2、ssd等其输出特征图很小，导致空间泛化能力不如方法(2)。

总结一下，虽然高斯热图预测的精度通常高于回归的方法，但是其存在几个非常麻烦的问题：(1) 输出图很大，导致内存占用多、推理和训练速度慢；(2) 存在理论误差下界；(3) mse loss可能会导致学习出来的结果出现偏移；(4) 不是全微分模型；