VideoRAG: Retrieval-Augmented Generation over Video Corpus

本文是LLM系列文章,针对《VideoRAG: Retrieval-Augmented Generation over Video Corpus》的翻译。

VideoRAG:基于视频语料库的检索增强生成

摘要

检索增强生成(RAG)是一种强大的策略,通过检索与查询相关的外部知识并将其整合到生成过程中,来解决在基础模型中生成事实不正确输出的问题。然而,现有的RAG方法主要侧重于文本信息,最近的一些进展开始考虑图像,它们在很大程度上忽视了视频,视频是多模态知识的丰富来源,能够比任何其他模态更有效地表示事件、过程和上下文细节。虽然最近的一些研究探索了视频在响应生成过程中的集成,但它们要么预先定义查询相关的视频,而不根据查询检索它们,要么将视频转换为文本描述,而不利用其多模态丰富性。为了解决这些问题,我们引入了VideoRAG,这是一个新颖的框架,它不仅根据视频与查询的相关性动态检索相关视频,而且在输出生成中利用视频的视觉和文本信息。此外,为了实现这一点,我们的方法围绕着大型视频语言模型(LVLM)的最新进展,该模型能够直接处理视频内容以表示它,以便进行检索,并将检索到的视频与查询无缝集成。我们通过实验验证了VideoRAG的有效性,表明它优于相关基线。

1 引言

2 方法

3 实验设置

4 实验结果和分析

5 相关工作

6 结论

在这项工作中,我们提出了VideoRAG,这是一个新的框架,通过利用视频语料库作为外部知识源,扩展了RAG系统的当前格局。具体来说,与使用视频文本表示或假设存在查询相关视频而不进行检索的现有作品不同,所提出的VideoRAG根据视频与查询

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值