文章主要内容
本文聚焦于语言驱动的视频动作定位任务中动作边界预测问题,提出了基于大语言模型(LLM)的查询扩展方法与边界概率建模模块,以应对人工标注边界时存在的不确定性问题。具体内容如下:
- LLM驱动的查询扩展:通过设计特定提示词,让LLM生成关于动作起始和结束边界的详细文本描述,以此补充原始查询中缺失的边界细节,为定位任务提供更精细的语义线索。
- 查询引导的时间建模模块:该模块包含局部和全局两个分支。局部分支借助起始、原始、结束查询特征,对动作各阶段的时间依赖关系进行建模;全局分支则利用拼接后的查询特征,捕捉整个动作序列的整体时间结构,进而实现视频特征的增强。
- 边界概率建模模块:结合帧与扩展查询的语义相似度以及帧与标注边界帧的时间距离,计算出动作边界的概率分数,将原本硬性的边界标注转化为软性的概率监督,提升模型对边界不确定性的容忍度。
- 实验验证:在Qvhighlights、Charades - STA、TACoS三个基准数据集上,将所提方法集成到5种先进模型中进行实验。结果表明,该方法能显著提升动作边界预测的准确性,且对标注噪声具有较强的鲁棒性。