Finding “It”: Weakly-Supervised Reference-Aware Visual Grounding in Instructional Videos

最新推荐文章于 2025-03-28 15:14:29 发布

原创最新推荐文章于 2025-03-28 15:14:29 发布 · 929 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Video Grounding

跨媒体专栏收录该内容

23 篇文章

订阅专栏

本文介绍了一篇CVPR2018口头报告论文，该研究利用弱监督的方式进行视频中的目标定位。输入为句子与视频，输出为目标的边界框，训练过程中不使用边界框的真实标注。

这是CVPR2018 Oral的一片关于Weakly-Supervised Video Grounding的文章，paper连接http://ai.stanford.edu/~dahuang/papers/cvpr18-ramil.pdf，作者的homepage http://ai.stanford.edu/~dahuang/，code暂时没有被released出来。
文章要做的事情：
输入：sentence+video　　　　　　　输出：bounding box（train的时候没有bbox ground truth）
文章中show出来的example如下所示。
example
文章在两个datasets上面的实验结果如下所示。
results