卷积网络到底能不能“定位”?一次对空间表示能力的深度解析

【导读】

在计算机视觉的世界里,“卷积网络不擅长定位”几乎成了共识。

但真的是这样吗?

在实际任务中,越来越多的系统(如 YOLO 系列、图像配准与关键点检测)都需要模型准确给出图像中的坐标点。卷积网络真的就不能胜任这类任务吗?

目录

一、卷积网络真的不适合坐标定位吗?

二、简单实验设计:让模型来“找点”

三、基线分析:卷积网络真的不行吗?

亮点:

问题与局限:

四、探索更好模型:明确空间代码

五、热图网络:就是一把刀

总结反思:坐标算法的新思路


本文通过一系列严谨实验和系统分析,从最朴素的卷积结构到复杂的空间感知模块,再到热图预测机制,全面探讨了卷积模型对空间坐标的表达能力。

不仅验证了部分误解,也指出了低成本高精度的最佳设计路径。

如果你关心目标检测、姿态估计、图像几何任务中的定位问题,那这篇文章值得你深入阅读。

>>更多资讯可加入CV技术群获取了解哦


一、卷积网络真的不适合坐标定位吗?

image.png

这是一个在计算机视觉领域比较红的说法,根据 2016 年的研究,ConvNet 在需要精精定位特征坐标的任务中表现差异。

当前规模上已经有不少实践系统需要直接预测坐标,如 YOLO 系列、图像单应性等。那么为什么实际效果超越了理论预期?

文中推出两大偏见用于解释:

  • 【独热编码偏见】:如果需要分别为图像中每个位置缓存特征,那么通道数量将体现指数增长的扩散

image.png

  • 【最优编码估计】:在允许一定误差下,同样的信息只需少量的 bit 就能表示

image.png

这是分析卷积网络空间表示性能的理论基础。


二、简单实验设计:让模型来“找点”

image.png

进一步,作者构造了极简数据集:1000 张 149x149 的灰度图,图中仅有一个“框角”,需要预测其 (x, y) 坐标。

它分开了特征定位能力和算法多样性之间的约束,为后续模型构建提供基准。

调研模型包括:

  • VGG 风格:每块含 2 个 conv 层

image.png

  • 简化版:每块仅一个 conv 层

  • 全卷积:保留原始分辨率,使用 GAP 作为集成

image.png

所有系列将通过 MPE 精度、编码效率和计算成本进行全面衡量。


三、基线分析:卷积网络真的不行吗?

以下是三种简单模型架构中最佳通道数(以及全卷积模型的卷积层数量)的原始结果。每种架构中测试集 MPE 最低的配置已突出显示:

image.png

结果反映出有趣的情况:

  • 最优型可达 MPE 约 0.9px,虽未达像素级,但还是超越随机猜测

  • 比特/通道 编码效率达到 0.4bit,远余独热偏见的预期

  • 神经元死亡分析显示,所有通道都有效利用

故,卷积网络对于简单的特征坐标还是有一定能力的,不能一算拋弃。

为了更公平地比较它们,以下展示了最接近实现 1.5px 训练集 MPE 的相应配置和结果:

image.png

  • 亮点:

  • 通道数优化:在相同精度下,每层卷积数为2的卷积网络所需的通道数更少,从而使得每通道的信息量更高,这与压缩假设(compression hypothesis)相一致。

  • 模型性能比较:全转换模型(fully transformed models)的计算开销(按FLOPs衡量)要比其他模型高出一个数量级,这在设计高效网络结构时具有参考意义。

  • 问题与局限:

  • 准确度不够:当前模型的最优定位误差为 0.9px,远未达到像素级定位所需的 MPE ≤ 0.2 的要求,说明还有显著改进空间。

  • 缺乏全局特征感知能力:全卷积模型(Fully Convolutional Models)在该任务中表现良好,主要得益于其对局部特征的学习能力,但它们的感受野有限(即便有16层,也仅覆盖图像的约22%),因此在处理需要全局上下文的信息时存在明显局限。


四、探索更好模型:明确空间代码

热点在于如何以最小价格提升精度,作者展开了对多类更加空间体感的模型结构探索,目标是找到一种架构,它 1) 能够可靠地显著提高准确率,优于简单的卷积网络;2) 最小化计算成本;3) 普遍适用于多个问题领域

  • CoordConv :在输入初始加入坐标线程

  • StrideGrid :以步进块为单位描述地方关系

image.png

  • 逐位置最大池化:转换下量操作,解耦 semantic 和 spatial 层

image.png

  • 软 attention pool :使用 softmax 对空间信息进行波泡池化,保留联系

image.png

image.png

结果显示:

该模型架构最终比单纯的卷积网络有了显著的提升。下图展示了使用所选架构(最多 32 个语义特征通道)对验证集进行测试的结果示例:

image.png

软波泡模型符合各项指标,接近像素级(MPE 降至 0.6px 级别)

image.png

计算成本与基线模型相差无几

性能优于综合性很强,适用于更实际的多特征定位


五、热图网络:就是一把刀

image.png

不再直接预测坐标,输出一张热图,通过 argmax + 细化算法进行位置调整,基于这个思路,造成了两类系统:

  • 全卷积热图:极简组织,但精度 MPE<0.1px

image.png

  • 多空间热图:基于 FPN 模型融合各级特征,MPE 降至 0.025px,达到像素级

image.png

这类模型表现突出:

  • 较低的计算成本下达到极高精度

  • 但不适合得到坐标就算结果的场景,需要热图输出是最终 target


总结反思:坐标算法的新思路

这篇文章通过实验证明:      

  • 卷积网络是有能力表示和转换空间信息的

  •  attention + 多空间热图是精度/成本最优规划

  • 基线卷积网络依然对于不需要像素级精度的场景是有效工具

如果你正在做姿态估计、图像应性、关键点检测等场景,上述分析对你有极大启发。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值