无提案时间动作检测与半监督方法研究
1. 无提案时间动作检测(TAGS)实现细节
为了与之前的方法进行公平比较,使用两个预提取的编码器进行特征提取:
- 一个是微调后的双流模型,下采样率为 16,步长为 2。每个视频的特征序列 F 使用线性插值分别调整为 ActivityNet 的 800 个片段和 THUMOS 的 1024 个片段。
- 另一个是在 Kinetics 上预训练的 I3D 模型,下采样率为 5。
模型使用 Adam 优化器训练 15 个 epoch,ActivityNet 和 THUMOS 的学习率分别为 10⁻⁴ 和 10⁻⁵。ActivityNet 的批量大小设置为 50,THUMOS 为 25。对于分类 - 掩码一致性,阈值 θm/θp 设置为 0.5/0.3,top - k 设置为 40。测试时,掩码的阈值集 Θ 设置为 {0.1 - 0.9},步长为 0.05,训练时掩码预测冗余也使用相同的阈值集。
2. 主要实验结果
2.1 ActivityNet 数据集结果
从相关表格可得出以下结论:
1. 使用 I3D 特征的 TAGS 在平均 mAP 上取得了最佳结果。尽管模型架构设计比现有方法简单得多,但这验证了在适当的全局上下文建模下,显式的提案生成不仅多余,而且效果较差。
2. 使用相对较弱的双流(TS)特征时,TAGS 仍然具有竞争力,甚至在平均 mAP 上显著超过了基于 I3D 的 BU - TAL、A2Net、ContextLoc 和 MUSES 等方法,也超过了基于提案细化和强大的 G - TAD 的 CSA 方法。
3. 与采用类似目标检测 Tra
超级会员免费看
订阅专栏 解锁全文
5137

被折叠的 条评论
为什么被折叠?



