港大&百度 | VideoRAG：首个用于超长上下文视频的RAG框架

最新推荐文章于 2025-11-21 10:15:17 发布

原创最新推荐文章于 2025-11-21 10:15:17 发布 · 1.6k 阅读

·

27

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#百度 #人工智能 #深度学习 #AI大模型 #大模型 #LLM #RAG

Qwen3-VL-30B

Qwen3-VL-30B

图文对话

Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型，这一代在各个方面都进行了全面升级：更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力，以及更强的代理交互能力

在这里插入图片描述

【论文链接】https://arxiv.org/pdf/2502.01549v1

源码见文末

一、摘要

RAG通过整合外部知识，在提升LLMs性能方面取得了显著成效，但其应用主要集中在文本内容上，丰富的多模态视频知识领域在很大程度上尚未得到探索。

本文提出 VideoRAG，这是首个专门为处理和理解超长上下文视频而设计的检索增强生成框架。

本文的核心创新在于其双通道架构，该架构无缝集成了

（i）基于图的文本知识接地，用于捕捉跨视频语义关系。

（ii）多模态上下文编码，用于高效保留视觉特征。

这一新颖设计使 VideoRAG 能够通过构建跨越多个视频的精确知识图谱来处理无限长度的视频，同时通过专门的多模态检索范式保持语义依赖。

在本文提出的 LongerVideos 基准测试中，经过全面的实证评估，与现有的 RAG 替代方法和长视频理解方法相比，VideoRAG 展现出了卓越的性能。

二、背景

LLMs的最新进展彻底改变了自然语言处理领域，但其性能受到预训练期间所获取知识的固有局限。

为解决这一局限，RAG应运而生，它通过在推理过程中动态检索并整合外部知识来提升 LLMs 的性能。

尽管 RAG 在各种基于文本的应用（如问答和事实验证）中取得了成功，但其在多模态内容（尤其是视频理解）领域的潜力仍未得到充分挖掘。

将 RAG 扩展到视频内容面临独特的挑战与机遇，因为视频包含复杂的多模态特征、时间动态信息以及复杂的语义关系，这些都超出了传统基于文本的知识整合方法的处理范畴。

三、贡献

提出了 VideoRAG 框架，这是首个针对超长上下文视频的检索增强生成框架，通过双通道架构有效处理、索引和检索无限长度视频中的信息，提升大语言模型性能。
构建了 LongerVideos 基准数据集，包含 160 多个总时长超 134 小时的长视频，涵盖多种类别，可用于评估模型跨多个长上下文视频的推理能力，推动长视频理解系统的发展。
通过综合实验评估，证明 VideoRAG 在处理长视频内容方面优于现有 RAG 替代方法和长视频理解方法，其图基知识接地和多模态检索机制对性能提升至关重要，并在实际应用场景中展现出良好的效果。

四、技术方案

在这里插入图片描述

4.1 多模态视频知识索引

基于图的文本知识接地：通过基于图的技术将多模态视频内容转换为结构化文本知识。

对于视觉内容，利用最先进的VLMs生成描述场景动态和上下文信息的文本；

对于音频流，借助高保真ASR提取带有时间对齐的语音内容。

将视频分割成短片段，对每个片段通过采样帧并使用 VLMs 生成视觉字幕，再与 ASR 转录文本合并，得到统一语义丰富的文本表示。

利用LLMs进行语义实体识别和关系映射，构建高质量知识图谱，并通过实体统一合并、动态知识图谱演化和 LLM 驱动的语义合成等步骤，实现跨视频知识整合和图谱构建。

最后对每个文本块进行嵌入编码，知识图谱和文本块嵌入共同构成图索引模块核心组件。

多模态上下文编码：为保留视觉元素，采用多模态编码器 MEnc (・) 将视频内容转换为检索优化的嵌入

该编码器能将视觉内容和文本查询映射到共享特征空间，实现高效语义检索。

基于强大的多模态编码框架（如 CLIP 和 ImageBind），视频编码公式为

VideoRAG 框架的索引模块处理视频知识库，创建结合知识图谱和多模态上下文嵌入的混合索引

4.2 多模态检索范式

文本语义匹配：利用构建的知识图谱，通过查询重写、实体匹配、块选择和视频剪辑检索四个步骤进行文本检索，最终得到文本检索集。

通过内容嵌入的视觉检索：基于视觉索引框架，对每个视频剪辑进行编码生成内容嵌入。

通过从查询中提取场景信息并进行跨模态特征对齐，计算查询嵌入与视频剪辑嵌入的余弦相似度，得到视觉检索结果。

基于 LLMs 的视频剪辑过滤：利用 LLMs 基于文本和视觉信息评估检索结果中剪辑与查询的相关性，过滤掉噪声剪辑，得到过滤后的剪辑集合。

4.3 查询感知内容集成和响应生成

利用 LLMs 从查询中提取关键词，与采样帧一起集成到 VLM 提示中生成详细视觉字幕，将视觉字幕和转录文本结合得到每个剪辑的综合描述。

通过语义相似度匹配获取相关文本信息，检索模块的输出包含查询特定的视频描述和相关文本块。

最后，VideoRAG 利用通用 LLM（如 GPT4 或 DeepSeek）基于查询和检索内容生成响应。

五、实验结果

整体比较

在这里插入图片描述

与 NaiveRAG、GraphRAG、LightRAG 等 RAG 基线方法相比，VideoRAG 在各项性能指标上均表现更优

在全面性、赋能性、可信度、深度和密度等方面展现出优势，其创新的多模态视频知识索引框架和多模态检索范式是性能提升的关键。

与 LLaMA-VID、VideoAgent、NotebookLM 等长上下文视频理解模型相比，VideoRAG 在多个指标上也显著超越它们，主要得益于其增强的长上下文建模能力和卓越的多模态融合能力。

案例研究

在这里插入图片描述

以 “the role of graders in reinforcement fine - tuning” 查询为例进行案例研究

VideoRAG 能准确从相关视频中检索出信息并构建详细准确的答案

相比 LightRAG，在处理技术内容时更具深度和精确性

体现了 VideoRAG 构建精确知识图谱、利用多模态信息进行准确内容检索以及处理多视频信息的能力。

六、结论

本文提出 VideoRAG，这是一种专为理解超长上下文视频而设计的新型检索增强生成框架。

通过将基于图的文本知识接地与多模态上下文编码无缝集成的双通道架构，VideoRAG 能够有效地处理、索引和检索无限长度视频中的信息，以增强大语言模型的能力。

在已建立的 LongerVideos 基准测试上进行的全面实证评估表明，与现有的 RAG 替代方法和长视频理解方法相比，VideoRAG 在多个维度上具有卓越的性能。

该框架所展示的能力，即构建精确的视频知识结构、利用多模态信息进行准确的内容检索以及处理来自多个长上下文视频的信息，彰显了其在推进基于视频的知识检索和生成任务方面的巨大潜力。

【源码链接】

https://github.com/HKUDS/VideoRAG

七、如何系统学习掌握AI大模型？

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包，有需要的小伙伴可以微信扫描下方优快云官方认证二维码，免费领取【保证100%免费】

您可能感兴趣的与本文相关的镜像

Qwen3-VL-30B

Qwen3-VL-30B

图文对话

Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型，这一代在各个方面都进行了全面升级：更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力，以及更强的代理交互能力

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。