基于时空上下文学习的端到端目标检测器
1. 相关工作
DETR提供了一种新的模式,将目标检测作为一个集合预测问题,通过一组学习到的参数平等地聚合全局特征。在与图像特征的交互过程中,目标查询逐渐学习实例特征。二分匹配允许直接的集合预测快速适应一对一的标签分配任务,从而消除了传统的后处理。然而,DETR在小目标检测上的准确率较低,收敛速度也较慢。
基于Transformer的目标检测器几乎都是DETR的变体:
- Deformable DETR:包含可学习的稀疏可变形注意力以加速收敛,并采用多尺度架构提高准确率。
- Efficient DETR:由密集提议生成和稀疏集合预测部分组成,利用密集先验初始化目标容器。
- Conditional DETR:从解码器嵌入中学习条件空间查询,使每个交叉注意力头能够关注包含不同区域的带。
现有的改进模型未能充分利用骨干网络,因此不得不通过过于复杂的设计来提高性能,并且这些模型并非为康复系统设计。而我们的工作是努力为康复系统打造一个简洁的模型,主要在特征提取网络和生成令牌方面对DETR进行改进。
特征提取网络在很大程度上决定了模型的准确性和速度。常见的特征提取网络有:
- ResNeXt:通过重复一个构建块来聚合具有相同拓扑结构的一组变换。
- MobileNet:基于精简架构,使用深度可分离卷积构建轻量级深度神经网络。
- RepVGG:具有类似VGG的推理时主体和训练时有多分支拓扑的模型。由于RepVGG网络在速度和准确性之间取得了良好的平衡,我们选择并改进它作为特征提取网络,以满足康复系统的要求。
在图像中应用Transformer时,有三种
超级会员免费看
订阅专栏 解锁全文
1906

被折叠的 条评论
为什么被折叠?



