论文浏览(34) Spatiotemporal Action Recognition in Restaurant Videos

本文探讨了YOWO结构在行为识别领域的应用,特别是在非标准餐厅数据集上的表现。YOWO结合了空间信息和时空特征,通过CFAM机制提升识别准确性。尽管在某些行为上表现优异,如‘拿起’,但在‘放下’等行为上因样本不平衡而受限。论文对比了Yolo与Yowo的性能,发现前者在部分行为识别上竟优于后者,突显了空间信息的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:时空行为检测
    • 作者单位:卡耐基梅隆大学
    • 发表时间:2020.8

1. 要解决什么问题

  • 更像是技术报告。
  • 使用不同的时空行为检测方法,在一个非标准的数据集(也就是他们自己的一个餐厅数据集上),构建一个产品(production application)
  • 使用的这个餐厅数据集,无法下载,存在很多问题:
    • Fast-moving actions
    • small bbox
    • poor class balance
    • imperfect bounding bboxes and labels

2. 用了什么方法

  • 使用了YOWO结构,是YOLO在行为识别方向上的扩展,具体的会单独写一篇论文介绍,本文中仅简单描述。
    • YOWO 有两个分支,一个从关键帧中获取空间信息,一个提取整个clip的时空特征。
    • YOWO 整体结构分为三个部分
      • 特征提取:分为两个部分,一个是从关键帧中提取特征,一个是从clip中提取特征。
      • CFAM(channel fusion and attention mechanism),即注意力机制,通过关键帧中提取的特征作为注意力机制的输入,对clip中提取的特征进行处理。
      • bbox 提取
  • 提出了 Recurrent YOLO
    • ConvLSTM要参考论文:Convolutional LSTM network: A machine learning approach for precipitation nowcasting
    • image_1egkcbv6a1kgq1fm01c2csg6319.png-93.1kB
    • 具体实现没看懂,结构如下
    • image_1egkcgiu6161n1gakuj61c83ib3m.png-428.1kB

3. 效果如何

  • 比较Yolo与Yowo在行为识别上的性能
    • 从结果看,直接使用目标检测算法的效果竟然比行为识别的算法好。。
    • 猜测原因如下:
      • 部分行为可以通过单张图片片段,空间信息还是非常重要的。
      • 对于时间敏感的行为(拿起、放下)可能还是Yowo比较好。
      • 数据量还是不够多,比如“拿起”样本多,“放下”样本少,那对于类似的数据判断为“拿起”的概率就高,但因为样本多,所以测试的时候效果也更好……
    • image_1egkdfc6c16ab1p4k81i1g2u1atd13.png-102.6kB
  • 比较不同backend的Yowo
    • 其实我对于 localization recall 算的是啥还不清楚,是时间上的定位还是空间上的定位?
    • 这论文排版,我给满分
    • image_1egkdtcsu1vd8nh0ts91r62blc1g.png-117.3kB
  • 比较各种训练方法+tricks
    • image_1egkdvmgq99v19l7k011l261dk41t.png-118.6kB
  • 本文提出的 Recurrent YOLO 的效果连个比较图都没,效果肯定不行。

4. 还存在什么问题&有什么可以借鉴

  • 后续工作可以借鉴这篇论文,在看完Yowo论文后肯定还要研究本文的内容和源码。

  • 这论文后续可能还会修改?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值