human pose regression by combining indirect part detection and contextual information - arxiv - 1710

该论文提出了一种新的方法,通过结合间接部分检测和上下文信息,使用回归而非传统的热力图检测来进行人体姿态估计。尽管直接回归通常效果不佳,但该方法实现了与基于热力图方法相当的性能,且避免了热力图标注和分辨率问题。模型基于Inception-V4、Skip-Connection和hourglass结构,使用soft-argmax聚合生成坐标,并应用L1和L2损失进行端到端训练。此外,论文还探讨了上下文在回归中的作用,以及如何通过全局最大池化和二元交叉熵损失进行概率估计。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

好久没写了,

心血来潮

好吧,怎么简单怎么来:

human pose regression by combining indirect part detection and contextual information - arxiv - 1710.02322

论文链接

该论文的亮点在于重新用回了regression,而不是直接基于heat map的part detection方法。为什么regression是亮点?14年NIPS的DeepPose就是用regresssion来做pose的,打开了CNN做pose的大门,但是众所周知,直接regression的效果一般,被认为是sub-optimally的。但是,但是,但是,这篇论文却用了regression来做pose,效果非常接近基于heat map的part detection的效果,太叼了。

这样做,并不需要人为产生heat map的ground-truths,也不需要担心网络的stride过大导致heat map的resolution过小的问题。

虽然论文中给出了代码的repo,但是作者还没release,坐等吧。


看图说话,下面是模型框架,看上去是不是很简单,没错,网络模型是比较简单的,利用了Inception-V4,Skip-Connection和hourglass结构来搭建,然后堆叠Block-A和Block-B。并进行了intermediate supervision。

### 联合分类回归递归神经网络在在线人体动作检测中的应用 对于在线人体动作检测,联合分类回归递归神经网络(Joint Classification-Regression Recurrent Neural Networks, JCR-RNNs)是一种有效的方法。这类模型能够实时处理视频流数据并识别正在进行的动作。 JCR-RNN 结构通常由两部分组成:特征提取器和递归单元。特征提取器可以采用卷积神经网络来捕捉空间特征[^1]。通过多层卷积操作,可以从输入帧中学习到丰富的视觉表示。这些特征随后被送入递归单元,在这里时间依赖关系得以建模。LSTM 或 GRU 单元常用于此目的,因为它们擅长记忆长时间序列的信息[^2]。 为了实现分类与回归任务的同时优化,损失函数设计至关重要。一种常见的做法是在同一框架下定义两个分支——一个负责预测类别标签;另一个则估计边界框坐标或其他连续变量。这样可以在训练过程中使两者相互促进,提高整体性能。 关于具体实施教程方面: - **PyTorch 实现**:许多开源项目提供了基于 PyTorch 的实现方案。例如 `torchvision` 库包含了多种预训练好的 CNN 架构可供选择作为基础特征提取模块。 ```python import torch.nn as nn class ActionDetectionModel(nn.Module): def __init__(self): super(ActionDetectionModel, self).__init__() # 定义CNN结构 self.feature_extractor = ... # LSTM/GRU 层 self.rnn_layer = nn.LSTM(input_size=..., hidden_size=...) def forward(self, x): features = self.feature_extractor(x) output, _ = self.rnn_layer(features) return output ``` - **TensorFlow/Keras 实现**:同样地,在 TensorFlow 中也可以构建类似的架构。Keras API 提供了一个高层次接口简化了复杂模型的设计过程。 除了上述技术细节外,参与相关领域会议也是获取最新进展的好途径。比如 AAAI 这样的顶级人工智能大会经常会有关于此主题的工作坊和技术报告分享会[^3]。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值