End-to-End Learning of Deformable Mixture of Parts and Deep Convolutional Neural Networks for Human

本文提出一种结合DCNN和可变形模型的方法,用于人体姿态估计。主要贡献包括:新的消息传递层,能构建多种结构;端到端的DCNN和可变形模型学习,挖掘困难样本;将领域知识融入框架,通过平方变形约束降低参数空间。

1、文章整体类似[3][4]两篇文章


2、作者指出在训练的时候经常会出现没有标注的人体部位预测了出来,这种情况对于错误反传是有影响的,原因是因为没有考虑整体人体的关机位置关系

                                

[4]这篇文章提出了用DCNN和deformable model结合在一起的方式进行训练,能够灵活的处理tree,star和loopy的结构

文章的主要贡献三个

1)新的消息传递层,能够灵活的构建树结构和loopy结构

2)端到端的DCNN和deformable的学习,在学习特征和part deformation的同时会挖掘困难样本

3)Domain知识能够融入到整个框架,通过平方变形约束降低了部位间的参数空间

作者提到了之前的一些MRF的工作,他们的卷积核过大不易学习,还有[3][4]两篇文章的思路,也是特征和关系的学习,但是他们的学习是分开的

                                  

参数化的变形约束并没有考虑表观mixture,因此不能够处理关节部位间的复杂关系,一旦关系复杂起来,就没有办法处理了,表观mixture,作者在后面也有提到过



3、正文

整个人体用来表示,是关节点的数量,是每个关键点的位置





t代表的是mixture类型,一共有Ti个


3.1 部位表观项

给定一个li为中心的patch,unary项就是这个patch属于mixture type中的哪一个类型,作者在后面提到这里Ti个数设置为13,也即每一个部位会有13个聚类中心,是网络的输出,然后经过softmax进行非线性映射,

最后

                               

获得最后的unary项

3.2 空间关系项

也即部位间的关系这一项,,其中是变形项,便是它的具体形式,便是4维的权重值,用来喝变形项进行点积。


4 推理

整个的推理的目的,找到每个关节的位置以及所处的mixture type。怎么来做这个推理呢?首先输入图像获得,然后输入到消息传递网络里面获得最终的推理结果。

4.1 消息传递

消息传递采用max-sum算法,max-sum算法被广泛地应用在了图模型的推理上了在每一个iteration中,每个节点也即每个关节向周围的相邻关节传递消息,同时接受来自相邻关节的消息。

                                    

来看一下消息传递的示意图


怎样获得最终的推理结果呢?



这样每个部位的位置和所属的空间关系类型都是确定的。都是通过上面获得的。作者这里构建的消息传递曾对于loopy和tree结构都是适用的。

一共有两种方式组织消息传递,flood和serial,作者最终按照公式(5)(6)进行构建。最后的belief是一张关于ti的feature map。尽管需要很多次迭代,作者这里只用了三层迭代,在第一轮中脖子仅仅会收到来自头部和肩膀的消息,在第二轮则会收到来自臀部和四肢的消息传递



5训练!!!!!!!!!!!!!!

作者采用[3][4]的思路进行构建

5.1 首先以patch为例训练DCNN,每一个patch都会有对应的mixture type。现有的数据集是没有mixture type的,作者做了个聚类来实现,r_ij是部位i和j的相对位置,我们聚类成Ti个中心。每个聚类中心都是一个关节部位对应的mixture type。mixture类型和表观类型很相关,例如竖起来的胳膊和横着的胳膊很不一样,pretrain这一步是不能去掉的,否则不收敛呢

5.2 然后来训练整个网络,作者只在消息传递层的最后一层做了监督

取最大可能性的mixture type的feature map也即取某个部位的Ti张map这里是13张map中结果最大的一张作为最终的map

是一系列的feature map而不是一张,最后一个iteration要在这里取max的,一共有Ti个,这里取13

最后一个迭代的损失这里不予讨论,反向传播类的思想。



6 作者的参数设置等

6.1 数据扩增

6.2 PCP和PDJ评测标准的定义

6.3 Ti取值13,所以会产生张map(所有部位的map数量),加上背景

树结构的人体构建和loopy的人体构建的不同是

这是loopy

这是树结构

<think>好的,我现在需要处理用户关于可变形变换器(Deformable Transformers)在端到端目标检测中的应用的问题。首先,我应该回顾一下已有的知识,确保自己理解Deformable Transformers的基本概念和它们在目标检测中的作用。 Deformable Transformers结合了可变形卷积和Transformer的优点,主要解决传统Transformer在处理高分辨率图像时计算量过大的问题。传统Transformer的自注意力机制在图像处理中需要处理大量的像素点,导致计算复杂度很高。而可变形注意力通过采样关键点,减少计算量,同时保持对物体形变的适应能力。这在目标检测中尤为重要,因为目标的位置和形状可能变化很大。 接下来,用户询问的是端到端目标检测的实现和使用。端到端检测意味着不需要后处理步骤(如非极大值抑制,NMS),直接输出检测结果。DETR(Detection Transformer)是首个实现这一点的模型,但它存在收敛速度慢和对小物体检测效果差的问题。Deformable DETR通过引入可变形注意力机制,改进了这些问题,提高了训练效率和检测精度。 现在需要详细说明实现步骤。首先,数据准备部分,用户可能需要了解数据集的处理,比如使用COCO格式,并进行数据增强。然后是模型架构,包括CNN骨干网络提取特征,可变形注意力层处理特征,以及Transformer的编解码结构。在训练策略方面,学习率设置、损失函数的选择(如匈牙利算法匹配预测和真实框)是关键点。最后,推理阶段需要说明如何处理输出,生成最终的检测框。 在代码示例部分,我需要提供一个简化的实现,可能基于PyTorch和Deformable DETR的库。这里要注意引入必要的模块,如DeformableDetrTransformer,并展示模型初始化和前向传播的过程。同时,需要提到需要安装特定的库,如torch和deformable-detr。 优化技巧部分,用户可能关心如何提升模型性能。多尺度特征融合可以捕捉不同尺度的目标,尤其是小物体。调整采样点的数量和加入迭代优化机制(如两阶段可变形注意力)也是有效的方法。此外,知识蒸馏可以用于提升小模型的性能。 应用场景方面,自动驾驶、医学图像分析和工业检测都是Deformable Transformers的典型应用,需要简要说明其优势,比如处理复杂背景或高分辨率图像的能力。 最后,生成相关问题时,要考虑用户可能进一步想知道的内容,比如与传统DETR的区别、处理小物体的方法、部署到移动设备的可能性,以及训练中的常见问题和解决方案。这些问题可以帮助用户更全面地理解主题,并深入探索实际应用中的挑战。</think>### 可变形变换器(Deformable Transformers)在端到端目标检测中的应用 #### 1. 核心概念 可变形变换器结合了可变形卷积的灵活性和Transformer的全局建模能力,通过**可变形注意力机制**动态调整特征采样位置,显著降低了传统Transformer在图像处理中的计算复杂度[^1]。其核心公式为: $$ \text{DeformAttn}(z_q, x) = \sum_{k=1}^K W_k \cdot x(p_q + \Delta p_{qk}) $$ 其中$z_q$是查询特征,$\Delta p_{qk}$为可学习的偏移量,$K$为采样点数。 #### 2. 端到端实现关键步骤 1. **数据准备** - 使用COCO格式标注数据 - 增强策略:随机裁剪、颜色抖动、多尺度训练 - 特征金字塔构建(FPN)处理多尺度目标 2. **模型架构** ```python from deformable_detr import DeformableDetrTransformer model = DeformableDetrTransformer( backbone='resnet50', num_classes=80, num_queries=300, num_feature_levels=4 ) ``` 3. **训练策略** - 两阶段训练:先用CNN提取特征,再联合优化Transformer - 匈牙利匹配损失:$\mathcal{L} = \lambda_{cls}\mathcal{L}_{cls} + \lambda_{box}\mathcal{L}_{box} + \lambda_{giou}\mathcal{L}_{giou}$ - 学习率策略:初始学习率$1e^{-4}$,100 epoch后衰减10倍 #### 3. 优化技巧 - **多尺度特征融合**:在FPN的P3-P6层级部署可变形注意力 - **动态采样点分配**:根据目标尺寸自动调整采样点密度 - **迭代边界框优化**:通过3次回归逐步细化预测框 #### 4. 典型应用场景 1. **自动驾驶感知**:处理复杂街景中遮挡目标 2. **医学图像分析**:检测微小病灶(如肺结节) 3. **工业质检**:高分辨率产品缺陷定位 #### 5. 性能对比 | 指标 | DETR | Deformable DETR | |--------------|--------|-----------------| | 训练收敛速度 | 500ep | 50ep | | AP@0.5 | 42.0% | 46.5% | | 显存消耗 | 32GB | 18GB |
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值