论文信息
题目:Towards Visual-Prompt Temporal Answer Grounding in Instructional Video
基于视觉提示的教学视频时间答案定位
作者:Shutao Li, Bin Li, Bin Sun, Yixuan Weng
源码链接:https://github.com/wengysy/VPTSL
论文创新点
- 引入视觉提示: 提出了一种基于视觉提示的文本跨度定位方法,通过视觉高亮特征增强预训练语言模型,结合视频的口头和非口头信息进行答案定位。
- 基于文本跨度的预测器: 首次将基于文本跨度的预测器应用于时间答案定位任务,利用字幕时间线进行答案定位,显著提升了定位精度。
- 跨模态交互: 设计了跨模态交互模块,结合视觉和文本特征,通过自注意力机制捕捉视频帧与文本问