这是ICCV2017 Spotlight的一篇关于temporal activity localization via language query in an untrimmed video的文章,paper连接https://arxiv.org/abs/1705.02101,作者的homepage https://jiyanggao.github.io/,code已经被released出来了https://github.com/jiyanggao/TALL。
文章要做的事情:
输入:sentence+video 输出:video clip
文章中show出来的example如下所示。
文章中show出来的实验结果如下所示。

method
文章中的framework如下所示。

文章主要由两个loss function组成(和Fast-RCNN比较像)。
alignment loss。找video clip与sentence的match,采用滑动的窗口对视频片段进行滑动,滑动窗口的大小分为[64,128,256,512](训练),测试的时候是128,正例的样本需要满足三个条件:
1 .重叠的部分大于0.5。
2 .不重叠的部分小于0.2。
3 .一个滑动窗口只能描述一个句子。location regressor loss。对开始和结束的时间进行回归。
本文介绍了一种通过语言查询在未修剪视频中实现时间活动定位的方法。该方法使用两个损失函数,包括对齐损失和位置回归损失,以精确匹配句子描述与视频片段。
1803

被折叠的 条评论
为什么被折叠?



