spatio-temporal localization方法

前言: 光流,backbone等等这种的发展就不说了,主要说下大的发展的变化

  1. 早期是单帧检测,然后把结果连接起来。
    不同方法backbone不同,有的也用了光流,比如[1]

  2. 由于单帧缺少对时序信息的挖掘,最近的方法是在做检测时用到时间信息。
    代表性的有

  • 1>ACT [2] 将多帧结果堆叠回归一个立方的proposal也就是说类似于做了proposal层面的tube(作者把它叫做tublet),然后把多个立方的proposal用dp算法做连接,平滑等后处理(作者叫spatio-temporal tubes)
  • 2> 上面都是2D卷积做的,T-CNN [3] 用了3D卷积提取clip的特征,然后经过作者提出的tube proposal 层来做clip内proposal的tube的构成,接着也是类似于1>进行后处理,构造spatio-temporal tubes
  • 3> AVA的baseline用了与1> 2>相似的pipeline。用了更强的backbone,同时proposal tube的生成方式是直接通过clip中间帧的proposal在clip内扩展得到,相比于单帧检测会更加高效。2>是通过不断地对提取器最后一层,3D的特征下采样到时间维度为1来进行检测,然后把这个proposal当作mask在提取器的前面没有做时间下采样前的特征处理,得到的proposal tubes。
  1. 后面的工作几乎都遵循2.里描述的pipeline,值得注意的是STEP [4] 在ucf101上取得了远超ACT和T-CNN的效果。它是用了cascade的策略,但是每次迭代时候会在时间维度对proposal进行扩展。

  2. 结论:感觉这个任务的尴尬程度不亚于caption

[1] G. Gkioxari and J. Malik. Finding action tubes. In CVPR, 2015. 3
[2] V.Kalogeiton, P. Weinzaepfel, V. Ferrari, and C. Schmid. Action tubelet detector for spatio-temporal action localization. In ICCV, 2017. 2, 3, 6, 7
[3] R. Hou, C. Chen, and M. Shah. Tube convolutional neural network (T-CNN) for action detection in videos. In ICCV, 2017. 2, 3, 6, 7
[4] Yang X, Yang X, Liu M Y, et al. STEP: Spatio-Temporal Progressive Learning for Video Action Detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 264-272.

### 多目标跟踪2024年最新技术和发展 #### 基于深度学习的多目标跟踪框架增强 近年来,随着深度学习的发展,多目标跟踪(MOT)领域取得了显著进步。特别是通过引入更强大的特征提取器和关联机制,使得MOT系统的性能得到了极大提升。最新的研究趋势表明,融合多种感知信息成为主流方向之一。 在模型架构方面,基于Transformer结构的设计逐渐取代传统卷积神经网络(CNN)[^1]。这类新型架构能够更好地捕捉场景中的长期依赖关系以及物体间的交互模式,从而提高了跨时间步长的目标匹配精度。例如,在一些前沿工作中,研究人员提出了时空注意力机制(Spatio-Temporal Attention Mechanism),它可以在不同尺度上动态调整关注区域,有效应对复杂环境下的遮挡情况[^2]。 #### 解决短期追踪断续问题的新策略 针对由检测失误或临时性障碍物造成的短暂丢失现象,当前的研究重点转向开发更加稳健的数据关联算法。除了之前提到过的全局链接(Global Linking)外,还出现了其他创新方案: - **回溯重定位(Backward Re-localization)**:当某个轨迹突然消失时,系统会自动向前搜索历史帧寻找相似外观的对象实例,并尝试恢复该对象的身份标识。 - **多假设跟踪(Multiple Hypothesis Tracking, MHT)**:允许同时维护多个可能的状态估计路径,直到有足够的证据支持某一条作为最有可能的结果为止。这种方法特别适用于高密度人群监控场合,可以减少误报率并保持较高的召回水平。 #### 实际应用场景拓展 随着技术成熟度不断提高,MOT正广泛应用于各个行业领域: - 安防监控:实现全天候自动化巡逻预警功能; - 自动驾驶辅助决策:帮助车辆理解周围交通状况,做出安全合理的行驶规划; - 零售业顾客行为分析:统计客流分布规律,优化店铺布局设计; 这些应用不仅促进了社会经济发展,也为改善人们生活质量提供了有力支撑。 ```python import torch from transformers import DetrForObjectDetection model = DetrForObjectDetection.from_pretrained('facebook/detr-resnet-50') def detect_objects(image_tensor): outputs = model(image_tensor) return outputs.logits.argmax(dim=-1) image_tensor = ... # 输入图片张量 detections = detect_objects(image_tensor) print(detections) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值