这是CVPR2018 Oral的一片关于Weakly-Supervised Video Grounding的文章,paper连接http://ai.stanford.edu/~dahuang/papers/cvpr18-ramil.pdf,作者的homepage http://ai.stanford.edu/~dahuang/,code暂时没有被released出来。
文章要做的事情:
输入:sentence+video 输出:bounding box(train的时候没有bbox ground truth)
文章中show出来的example如下所示。
文章在两个datasets上面的实验结果如下所示。

Finding “It”: Weakly-Supervised Reference-Aware Visual Grounding in Instructional Videos
最新推荐文章于 2025-03-28 15:14:29 发布
本文介绍了一篇CVPR2018口头报告论文,该研究利用弱监督的方式进行视频中的目标定位。输入为句子与视频,输出为目标的边界框,训练过程中不使用边界框的真实标注。
1556

被折叠的 条评论
为什么被折叠?



