- 博客(11)
- 收藏
- 关注
原创 VTimeLLM:Empower LLM to Grasp Video Moments
当前的video LLM只能针对整个视频提供粗糙的(coarse)描述,难以捕捉到某一特定场景的精确的起止。本作中,我们解决了这个问题。我们提出了一种新颖的Video LLM框架:针对细粒度动作理解和推理(从时间范围的角度)。具体来说,我们的模型采用了一种boundary-aware的三阶段训练框架,从以下三个角度有改进:1. 利用了图片-文本对来进行特征对齐;2. 多事件视频来增加模型的时间范围意识;3. 高质量的视频-指令ft来进一步提升时间理解能力(与人类意图对齐)。
2024-08-26 13:50:32
1060
原创 ViP-LLaVA:Making Large Multimodal Models Understand Arbitrary Visual Prompts
现存的VLLM关注整张图片的理解,与局部区域理解之间存在一个显著的(prominent)gap。近期的方法通过利用文本坐标系(textual coordinate)或者空间的编码(spatial encodings),然而往往推理过程中对用户不友好(写视觉prompt时)。为了解决这一挑战,我们提出了一种新的模型能解码任意的视觉提示词。它使用户可以凭直觉(intuitively)来标记图片,通过天然的提示(红色的框、箭头)来和模型交互。
2024-08-25 16:37:16
524
原创 基于群适应融合网络提高说话人验证的公平性
Index Terms:群speaker分布不均、embedding adaptation、score fusion
2023-01-11 15:29:44
134
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人