LLM-powered Query Expansion for Enhancing Boundary Prediction in Language-driven Action Localization

文章主要内容

本文聚焦于语言驱动的视频动作定位任务中动作边界预测问题,提出了基于大语言模型(LLM)的查询扩展方法与边界概率建模模块,以应对人工标注边界时存在的不确定性问题。具体内容如下:

  1. LLM驱动的查询扩展:通过设计特定提示词,让LLM生成关于动作起始和结束边界的详细文本描述,以此补充原始查询中缺失的边界细节,为定位任务提供更精细的语义线索。
  2. 查询引导的时间建模模块:该模块包含局部和全局两个分支。局部分支借助起始、原始、结束查询特征,对动作各阶段的时间依赖关系进行建模;全局分支则利用拼接后的查询特征,捕捉整个动作序列的整体时间结构,进而实现视频特征的增强。
  3. 边界概率建模模块:结合帧与扩展查询的语义相似度以及帧与标注边界帧的时间距离,计算出动作边界的概率分数,将原本硬性的边界标注转化为软性的概率监督,提升模型对边界不确定性的容忍度。
  4. 实验验证:在Qvhighlights、Charades - STA、TACoS三个基准数据集上,将所提方法集成到5种先进模型中进行实验。结果表明,该方法能显著提升动作边界预测的准确性,且对标注噪声具有较强的鲁棒性。

文章

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值