计算机视觉与生成式AI及推理的集成技术

如何将计算机视觉流程与生成式AI及推理技术集成

生成式AI正在为分析现有视频流开辟新的可能性。视频分析正在从计数对象演变为将原始视频内容转化为实时理解。这使得人们可以获得更具可操作性的洞察。

某中心的AI蓝图——视频搜索与摘要(VSS)——将视觉语言模型(VLM)、大型语言模型(LLM)和检索增强生成(RAG)与优化的数据摄取、检索和存储流程结合在一起。作为某中心大都会平台的一部分,它支持存储和实时视频理解。

在之前的版本中,VSS蓝图引入了高效视频摄取、上下文感知RAG、计算机视觉(CV)流程和音频转录等功能。欲了解这些基础功能的更多信息,请参阅相关技术文档。

本文解释了最新VSS蓝图2.4版本中的新功能,该版本提供了四大升级,使开发者能够:

  1. 提升物理世界理解能力:VSS现已集成某中心Cosmos Reason,这是一个先进的推理VLM,可为更丰富的视频分析和洞察提供高级物理AI推理和场景理解。
  2. 增强问答能力:新的知识图谱功能和跨摄像头支持包括多流问答、改进的知识图谱生成、基于智能体的图谱遍历、Neo4J和ArangoDB,以及cuGraph加速。
  3. 通过事件审查器在边缘解锁生成式AI:审查CV流程发现的感兴趣事件,并用生成式AI提供上下文洞察。新的端点使VSS能够配置为CV流程的智能附加组件,非常适合低延迟边缘部署。
  4. 扩展的硬件支持部署:VSS现已可在多个基于某中心布莱克威尔架构的平台上运行,包括某中心Jetson Thor、某中心DGX Spark以及某中心RTX Pro 6000工作站和服务器版本。

通过Cosmos Reason提升物理世界理解能力

Cosmos Reason是一个开放的、可定制的、70亿参数的最先进推理VLM,用于物理AI。它使视觉AI智能体能够像人类一样,利用先验知识、物理理解和常识来理解和作用于现实世界。Cosmos Reason使开发者能够构建能够通过分析PB级记录视频或数百万实时流来观察、分析和作用于物理世界的AI智能体。Cosmos Reason NIM现已可用,为构建具有快速、可扩展推理能力的智能视觉AI智能体提供了一个生产就绪的VLM端点。

使用VSS蓝图2.4构建的视频分析AI智能体可以利用Cosmos Reason提取准确且丰富的密集字幕、通过集合提示枚举感兴趣的对象、提供有价值的见解,并对来自制造线、物流仓库、零售店和交通网络等多个行业的镜头进行根本原因分析。

VSS 2.4支持与Cosmos Reason的原生集成。这种支持将视频摄取过程与VLM紧密耦合,允许进行高效的批处理和加速,这是基于REST API的VLM接口无法实现的。Cosmos Reason仅70亿参数的小尺寸,使其易于用于边缘部署和云端。Cosmos Reason完全可定制,并且能够使用专有数据进行微调。

利用知识图谱和跨摄像头支持增强问答能力

摄取大量视频具有挑战性,因为数据是非结构化的、连续的且体量极大,这使其难以高效搜索、索引或摘要。单个视频可能包含数小时的镜头,包括同时发生的多个事件,并且需要大量计算资源仅用于解码和分析。标准的计算机视觉流程通常无法跟上规模,产生孤立的检测结果,而缺乏理解实际发生情况所需的更广泛上下文。

VSS通过使用GPU加速的视频摄取流程解决了这个问题。当视频文件或直播流进入时,它被分解成更小的块,Cosmos Reason VLM为每个块生成丰富的描述或字幕。然后,一个LLM从VLM生成的字幕中提取必要的信息,构建一个捕获视频重要细节的知识图谱。一旦知识图谱构建完成,一个大型语言模型会遍历该图谱,回答用户关于视频的问题。

VSS 2.4通过以下方式增强了问答准确性和跨摄像头理解能力:

  • 知识图谱中的实体去重
  • 基于智能体的图谱遍历
  • CUDA加速的图数据库

在VSS蓝图的早期版本中,构建知识图谱可能导致重复的节点和边。在VSS蓝图2.4中,增加了知识图谱后处理,以删除任何重复条目,并合并跨视频共有的节点和边。这意味着,像同一辆车在多个摄像头间移动这样的常见实体,现在被合并为单一实体,这提高了VSS理解物体在视频中及跨摄像头移动过程中独特对象的能力。

一旦知识图谱生成并经过后处理,就使用LLM遍历图谱并收集必要信息来回答用户关于视频的问题。

在VSS 2.4中,引入了基于智能体的推理用于高级知识图谱检索。如果启用,一个基于LLM的智能体将智能地分解问题,然后使用一组工具来搜索图谱、查找相关元数据、重新检查视频中的采样帧,并在必要时进行迭代,以准确回答用户的问题。

准确率对比(表)

  • 基准:LongVideoBench | VSS 2.3.1准确率:48.16 | VSS 2.4准确率:64.32 | 准确率变化:+16.16%
  • 基准:MLVU | VSS 2.3.1准确率:61.24 | VSS 2.4准确率:71.44 | 准确率变化:+10.20%

现在,利用知识图谱后处理合并实体和关系以及高级的基于智能体的检索,可以回答跨多个摄像头流的问题。

为了向开发者提供最新的工具,支持的图数据库后端已扩展至包括ArangoDB。用户现在能够将VSS配置为使用Neo4J或ArangoDB图数据库后端。ArangoDB带来了一系列增强功能,包括用于加速知识图谱生成的CUDA加速图函数。

这些用于实现知识图谱生成和智能体问答的新功能最适合能够处理大型LLM和多个并发VLM请求的多GPU部署。

使用VSS事件审查器增强CV流程

对于小规模和边缘部署,新的VSS事件审查器功能引入了API端点,使得将VSS轻松集成到现有的计算机视觉流程中,以实现低延迟警报和对视频片段的直接VLM问答。

事件审查器允许VSS仅对关键时刻提供VLM洞察,而不是在所有文件或流上持续运行VSS。这种方法大大降低了计算成本,使VSS非常适合轻量级部署和边缘平台。

虽然标准CV流程擅长检测物体和人员,或应用分析来识别事件(如可能的车辆碰撞),但它们经常产生误报,并且缺乏更深入的场景理解。

VSS可用于增强这些CV流程,具体方式是分析由CV系统标记的短视频片段,审查检测到的事件,并发现传统方法可能遗漏的额外见解。

图4显示了VSS如何增强现有流程。计算机视觉流程代表任何能够接收视频文件或流并输出感兴趣的短视频片段的专有系统。然后可以调用事件审查器端点,将这些短视频片段传递给VSS,以生成警报并与VLM进行后续问答。

为了演示此功能,VSS GitHub仓库中使用GroundingDINO提供了一个示例DeepStream检测流程。该示例流程摄取视频,运行检测,然后在检测到的物体数量超过设定阈值时输出片段。该流程的目的是从视频中找出需要VSS与VLM一起检查的最重要事件。

然后,VSS将使用VLM处理每个小片段,回答用户定义的一组是/否问题。这些响应被转换为每个问题的真/假状态,可用于向用户生成低延迟警报。一旦短视频片段被VSS处理完毕,您可以询问更详细的后续问题。

这种方法仅选择性地将由轻量级检测流程确定的感兴趣的片段用于VLM。它可以通过减少VLM调用并释放GPU用于其他工作负载,从而大幅降低计算成本。

通过扩展的硬件支持灵活部署

VSS蓝图2.4完全支持多个某中心布莱克威尔平台,包括用于边缘部署的某中心RTX Pro 6000服务器和工作站版本以及某中心Jetson Thor。对某中心DGX Spark的支持即将推出。

支持平台与推荐用途(表)

  • 平台:1 某中心Jetson Thor | LLM:Llama 3.1 8B | VLM:Cosmos Reason 1 | 推荐用途:事件审查
  • 平台:1-2 某中心RTX PRO 6000 Blackwell WS/SE | LLM:Llama 3.1 70B | VLM:Cosmos Reason 1 | 推荐用途:事件审查,视频摘要,视频问答(向量RAG)
  • 平台:4-8 某中心RTX PRO 6000 Blackwell WS/SE | LLM:Llama 3.1 70B | VLM:Cosmos Reason 1 | 推荐用途:事件审查,文件摘要,视频问答(图谱RAG)

有关支持的平台的完整列表,请参阅VSS文档的“支持的平台”部分。

开始使用视觉智能体AI

新的VSS蓝图2.4版本为边缘带来了新的视觉智能体AI功能、提升问答准确性的改进、跨摄像头理解以及平台支持的扩展。知识图谱创建和遍历的增强提高了问答准确性,并支持跨摄像头查询。

对于边缘部署和警报用例,事件审查器功能是一种将VSS用作CV流程智能附加组件以实现低延迟警报的方式。扩展的平台支持包括某中心RTX Pro和某中心Thor。

要快速开始使用VSS蓝图,请使用某中心Brev Launchable。该launchable提供快速的一键部署和Jupyter笔记本,引导您如何启动VSS、访问Web UI以及使用VSS REST API。访问GitHub仓库以获取更多技术资源,如训练笔记本和参考代码。更多技术问题,请访问某中心开发者论坛。

有关生产部署和云服务提供商的详细信息,请参阅VSS文档的“云”部分。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值