【CVPR2025】4D LangSplat:基于多模态大语言模型的4D语言高斯溅射

来源:专知
本文约1000字,建议阅读5分钟
我们提出了4D LangSplat,它通过学习4D语言场来高效处理动态场景中时间无关或时间敏感的开放词汇查询。

图片

学习4D语言场以实现动态场景中时间敏感且开放式的语言查询,对于许多实际应用至关重要。尽管LangSplat成功地将CLIP特征嵌入到3D高斯表示中,在3D静态场景中实现了精度和效率,但它无法处理动态4D场,因为CLIP是为静态图像-文本任务设计的,无法捕捉视频中的时间动态。现实世界环境本质上是动态的,对象语义会随时间演变。构建精确的4D语言场需要获取像素对齐的、对象级别的视频特征,而当前的视觉模型难以实现这一点。为了解决这些挑战,我们提出了4D LangSplat,它通过学习4D语言场来高效处理动态场景中时间无关或时间敏感的开放词汇查询。4D LangSplat绕过了从视觉特征中学习语言场的过程,而是直接通过多模态大语言模型(MLLMs)从对象级别的视频描述生成的文本中学习。具体而言,我们提出了一种多模态对象级别视频提示方法,包括视觉和文本提示,指导MLLMs为视频中的对象生成详细、时间一致且高质量的描述。这些描述通过大语言模型编码为高质量的句子嵌入,随后作为像素对齐的、对象特定的特征监督,通过共享嵌入空间促进开放词汇文本查询。认识到4D场景中的对象在不同状态之间表现出平滑过渡,我们进一步提出了一种状态可变形网络,以有效建模这些随时间变化的连续状态。我们在多个基准测试中的结果表明,4D LangSplat在时间敏感和时间无关的开放词汇查询中均实现了精确且高效的结果。

图片

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值