理解视觉or预测未来?到底什么是World Models?

作者 | 蔡道清 编辑 | 自动驾驶之心

原文链接:https://zhuanlan.zhihu.com/p/19498199387

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心世界模型技术交流群

本文只做学术分享,如有侵权,联系删文

paper link:https://arxiv.org/pdf/2411.14499v1

一 Motivation

本文对世界模型进行了系统分类,强调了两个主要功能:(1)构建内部表示来理解世界的机制,(2)预测未来状态以模拟和指导决策。本文首先调研了这两个方向的最新工作进展,然后,探讨了世界模型在关键领域的应用,包括自动驾驶、机器人和社会模拟;最后,概述了关键挑战,并为潜在的未来研究方向提供了见解。

其实,世界模型的定义还是一个正在争论的话题,本文是从目前World models的工作中,world models的功能的角度划分:理解世界预测未来。“理解世界”侧重于学习并内化世界知识以支持后续决策的模型,而“预测未来”强调从视觉感知增强物理世界中的预测和模拟能力。

二 背景

89dafbd3734c0da66b421761542cbb47.png

2018年世界模型的概念首次在人工智能领域引入[1],David Ha等人追溯了世界模型概念的起源,回到1971年建立的“心理模型”的心理原理,提出人类将外部世界抽象为简单的元素及其相互关系来感知它。这一原则表明,当从深度、内部的角度来看,我们对世界的描述通常涉及构建一个足够且不需要详细描述的抽象表示。基于这个概念框架,Ha 引入了一个受人类认知系统启发的代理模型,如上图World Models所示。在这个开创性的模型中,代理接收来自现实世界环境的反馈,然后将其转换为一系列训练模型的输入。该模型擅长模拟外部环境中特定动作后的潜在结果。本质上,它创建了一个潜在未来世界演变的心理模拟,并根据这些状态的预测结果做出决策。赭红方法和基于模型的强化学习很类似。

2022年,Yann LeCun提出Joint Embedding Predictive Architecture (JEPA),模拟人脑结构的框架。这个框架包括一个处理感官数据的感知模块,然后是一个评估这些信息的认知模块,有效地体现世界模型。该模型允许大脑评估动作并确定最适合实际应用的响应。LeCun的框架结合了“快“”慢”双系统概念。系统 1 涉及直观、本能的反应:没有世界模型做出的快速决策,例如直觉地躲避迎面而来的人。相比之下,系统 2 采用深思熟虑、计算的推理,它考虑了世界的未来状态。在这个框架中,世界模型对于理解和表示外部世界至关重要。它使用潜在变量建模世界状态,这些变量捕捉关键信息,同时过滤冗余信息。这种方法允许世界的高效、简约的表示,促进未来场景的最佳决策和规划。

模型捕获世界知识的能力对于它们在广泛的现实世界任务中的有效性能至关重要。2023年兴起的大语言模型(LLMs)展示出了在世界认知方面的潜力,这些模型捕获了直观的知识,包括空间和时间理解,能够对现实场景进行预测。此外,LLM 能够通过认知图对外部世界进行建模,有研究揭示了嵌入在其中的类似大脑的结构。这些模型甚至可以根据先前的经验预测未来的事件,从而提高它们在现实世界环境中的实用性和适用性。

上面提到的世界模型是对外部世界的隐式理解,2024年2月,OpenAI发布的Sora模型则是一个视频生成模型,被认为是世界模拟器。Sora输入真实世界的视觉数据并输出预测未来世界演化的视频帧。值得注意的是,它展示了卓越的建模能力,例如在相机运动和旋转期间保持 3D 视频模拟的一致性。它还可以产生物理上合理的结果,例如在汉堡上留下位标记;模拟数字环境,例如在 Minecraft 游戏中渲染第一人称视图。这些能力表明,Sora不仅模仿了真实世界场景中的外观,还模拟出了其动态特性,专注于真实建模动态世界变化,而不仅仅是表示静态世界状态。

不管是聚焦在外部世界的内在表示,还是模拟世界的运行法则,这些方法都揭示了世界模型的本质目的是理解世界的动态特性,并且预测未来的场景。

三 外部世界的隐式表示

Decision-making里的世界模型

在决策任务中,理解环境是为优化策略生成奠定基础的主要任务。因此,决策中的世界模型应该包括对环境的全面理解。它使我们能够在不影响真实环境的情况下采取假设的动作,从而促进低试错成本。关于如何学习和利用世界模型的研究最初是在model-based RL 领域提出的。此外,LLM 和 MLLM 的最新进展也为世界模型构建提供了全面的主干模型,使用语言作为更一般的表示,基于语言的世界模型可以适应更通用的任务。在决策任务中利用世界模型的两种方案如图所示:

d77459058f4fa52007e156fc6bb08cd2.png

World model in model-based RL

在决策中,世界模型的概念主要是指基于模型的 RL (MBRL) 中的环境模型。决策问题通常被表述为马尔可夫决策过程 (MDP),用元组(S,A,M,R,)表示,其中S,A,表示状态空间、动作空间和折扣因子。这里的世界模型由状态转换动力学M和 奖励函数R组成。由于奖励函数在大多数情况下是定义的,MBRL 的关键任务是学习和利用转移动态(transition dynamics),进一步支持策略优化。

世界模型的学习:为了学习准确的世界模型,最直接的方法是在每个one-step transitions上计算均方误差,

5c3a50bf60aa731093bab13e29b07f6c.png

这里的M* 是收集的轨迹数据中的实际转移动态,是学习的参数。除了直接利用确定性转换模型外,Chua等人还使用概率转换模型进一步对任意不确定性进行建模。目标是最小化转换模型之间的 KL 散度:

2773f7b4edfc78c2db478df55829be40.png

在这两种情况下,世界模型学习转换为监督学习任务。学习标签是源自真实交互环境的轨迹,也称为模拟数据。

对于更复杂的场景,状态空间是高维的,表征学习就变得很重要。Ha and Schmidhuber采用自动编码器结构通过潜在状态重建图像;Hafner等人提出对于视觉任务学习视觉编码和隐式的动态特性;Samsami等人提出了一个Recall-to-Imaging框架,进一步提升模型学习过程中的记忆能力;最近的另一个趋势是在不同的任务之间进行统一的模型学习,使用transformer结构,将MDP表示为next-token-prediction范式。

用世界模型生成policy:使用理想的优化后的世界模型,生成相应策略最直接的方法是模型预测控制 (MPC)。MPC在给定模型的情况下规划动作序列,如下所示:

3c9bc8d1515b04c36d40e9d53e0fc42a.png

Nagabandi等人采用一种简单的蒙特卡罗方法对动作序列进行采样;Chua等人提出了一种新的概率算法,该算法集成了轨迹采样;生成世界模型策略的另一种流行方法是蒙特卡洛树搜索 (MCTS),通过维护一个搜索树,其中每个节点代表由预定义value function评估的状态,将选择动作,使代理可以处理具有更高值的状态。AlphaGo 和 AlphaGo Zero是代表应用。Moerland等人扩展MCTS来解决连续动作空间中的决策问题。Oh等人提出了一种value预测网络,该网络将MCTS应用于学习的模型,以根据价值和奖励预测来搜索动作。

World model with language backbone

LLMs和MLLMs展示了在决策任务中的巨大潜力。LLMs作为世界模型,主要有两种用法:直接预测动作序列和模块化的使用。直接预测动作比较好理解,就是利用大模型的通识能力,微调大模型,直接输出动作序列;模块化的使用指的是将基于LLM的世界模型作为模块与其他有效的规划算法相结合,可以进一步提高决策质量。Xiang等人在世界模型中部署了一个具身代理,VirtualHome的模拟器,其中相应的具身知识注入到llm中。为了更好地规划和完成特定的目标,他们提出了一种目标条件规划模式,使用蒙特卡罗树搜索 (MCTS) 来搜索真正的任务目标。林等人引入了一个代理 Dynalang,它学习多模态世界模型来预测未来的文本和图像表示,并基于想象的模型输出采取行动。策略学习阶段利用纯粹基于先前生成的多模态表示的 actor-critic 算法。Liu等人进一步将llm的推理转化为贝叶斯自适应马尔可夫决策过程(MDPs)的学习和规划。LLM就像世界模型一样,在MDPs的actor-critic更新中以in-context的方式执行。RAFA框架在多个复杂的推理任务和环境(如ALFWorld)中显示出显著的性能提升。

模型学习的世界知识

这里主要针对分析的是LLM中的世界知识。区别于常识一般知识,本文从世界模型的角度关注大型语言模型中的世界知识。基于对象和空间范围,大型语言模型中的世界知识可以分为三个部分:1)全球物理世界的知识;2)局部物理世界的知识;3)人类社会的知识

a68ec3d8f2e90723cbfe3259a5daa4b8.png

全球物理世界的知识

Gurnee等人提出了第一个证据,即大型语言模型真正获取世界的时空知识,而不仅仅是收集表面统计数据。他们在LLama2中发现了不同的“空间神经元”和“时间神经元”,这表明该模型在多个尺度上学习空间和时间的线性表示。Manvi等人开发了关于文本地址的有效prompts,以提取关于地理空间的直观真实世界知识,并成功地提高了模型在各种下游地理空间预测任务中的性能。虽然大型语言模型确实获得了现实世界的一些隐含知识,但这些知识的质量仍然值得怀疑,冯等人发现嵌入在大型语言模型中的城市知识通常是粗略和不准确的。为了解决这个问题,他们提出了一个有效的框架来改进大型语言模型中特定城市的城市知识的获取。从这些工作中,我们可以看到,尽管大型语言模型已经证明了捕获现实世界知识的能力,但很明显,需要进一步的努力来增强这些知识,以实现更广泛和更可靠的实际应用。

局部物理世界的知识

与全球物理世界的知识不同,局部物理世界代表了人类日常生活和大多数现实世界任务的主要环境。因此,理解和建模局部物理世界是构建综合世界模型的另一个关键主题。我们首先介绍认知地图的概念,它说明了人类大脑如何对外部世界进行建模。虽然最初是为解释人类学习过程而开发的概念,但研究人员已经在大型语言模型中发现了类似的结构,并利用这些见解来提高人工模型在学习和理解物理世界方面的效率和性能。

最近的研究探索了主动鼓励模型在跨各种环境条件下,用类似认知地图的过程来学习抽象知识。例如,Cornet 等人在简化的 Minecraft 世界中使用视觉预测编码通过空间认知地图的构建来证明学习的有效性。Lin等人通过世界模型学习过程来教模型理解游戏环境,具体的方式是预测环境的下一帧。通过这种方式,该模型可以在动态环境中生成更好的动作。此外,Jin等人发现语言模型可以通过预测下一个token来学习程序语义的涌现表示。

人类社会的知识

除了物理世界之外,理解人类社会是世界模型的另一个关键方面。Theory of Mind解释了个人如何推断他们周围其他人的精神状态。最近的研究广泛探索了大型语言模型如何开发和演示这种社会世界模型。其中一条路线是侧重于评估大型语言模型在各种心理任务理论上的性能,以确定它们的类人行为是否反映了对社会规则和隐性知识的真正理解。例如,Strachan 等人在不同的Theory of Mind能力(例如理解虚假信念和识别讽刺)上对人类和 LLM 性能进行了比较分析。虽然他们的证明了 GPT-4 在这些任务中的潜力,但也确定了其局限性,尤其是在检测 faux pas 方面。

为了解决这些限制,研究人员提出了创新方法来提高大型语言模型在复杂现实应用的Theory of Mind中的能力。Wu等人引入了COKE,它构建了一个知识图来帮助大型语言模型明确地使用认知链中的理论。此外,Alex 等人开发了 SimToM,这是一个两阶段提示框架,以提高大型语言模型在思维任务理论中的性能。

四 物理世界的未来预测

World Model as Video Generation

传统的世界模型主要聚焦在预测离散的或者静态的未来状态,然而,通过生成能够捕捉连续空间和时间的动态特性,类似视频的模拟仿真,世界模型已经发展到能够解决更复杂、动态的环境。这种视频生成的突破将世界模型的能力推向了一个新的水平

迈向视频世界模型

视频世界模型是一个计算框架,旨在通过在视觉上下文中处理过去的观察潜在动作来模拟和预测世界的未来状态。这个概念建立在世界模型的更广泛想法之上,该模型努力捕捉环境的动态,并使机器能够预测世界如何随着时间的推移而演变。视频世界模型的重点是生成表示这些演化状态的视觉帧序列。

这里主要讲一下Sora,Sora基于文本、图像和视频等各种输入模态,生成高质量的、时间一致的视频序列,长达一分钟。Sora 利用强大的神经网络架构(包括编码器-解码器框架和transformers)的组合来处理多模态输入并生成视觉连贯的模拟。Sora的核心能力在于它能够生成与现实世界物理原理一致的视频,例如光在表面上的反射或蜡烛的熔化。这些属性表明 Sora 有可能充当世界模拟器,根据其对初始条件和模拟参数的理解来预测世界的未来状态。然而,Sora也有一些局限性,比如因果推理,Sora 只能根据观察到的初始状态被动生成视频序列,但不能主动干预或预测动作的变化如何改变事件的过程。另一个限制是它仍然不能一致地再现正确的物理定律。虽然Sora可以生成视觉上逼真的场景,但它很难准确地模拟真实世界的物理,例如物体在不同力、流体动力学下的行为,或者准确描述光和阴影相互作用。

视频世界模型的能力

4a95fb26fc786cbe61bc86dc9e01febc.png

尽管关于 Sora 等模型是否可以被认为是世界模型的争论还在持续,但毫无疑问,视频世界模型在推进环境模拟和预测方面具有巨大的潜力。这些模型可以通过生成逼真的动态视频序列来提供理解和交互复杂环境的强大方法。下面概述了视频世界模型必须具备的关键能力,以便将它们与传统的视频生成模型区分开来。

Long-Term Predictive Ability。视频世界模型应该能够在很长一段时间内做出符合环境动态规则的长期预测。这种能力允许模型模拟场景如何演变。尽管 Sora 已经实现了具有高质量时间一致性的长视频序列的生成(分钟级别),但它仍然远未能够模拟现实世界环境中复杂、长期的动态。最近的工作探索了扩展视频长度以捕获长期依赖关系并提高时间一致性。

Multi-Modal Integration。除了语言引导的视频生成之外,视频世界模型越来越多地整合其他模态,如图像和动作,以增强真实感和交互性。多模态的集成允许更丰富的模拟,更好地捕捉现实世界环境的复杂性,提高生成场景的准确性和多样性。

Interactivity。视频世界模型的另一个关键能力是它们具有可控性和交互性的潜力。理想的模型不仅要生成真实的模拟,还要允许与环境的交互。这种交互性涉及模拟不同动作的后果并提供反馈,使模型能够用于需要动态决策的应用场景。最近的工作重点是增强对仿真模拟的控制,允许对场景进行更多用户引导的探索。

Diverse Environments。视频世界模型正在适应各种特定场景的模拟,包括自然环境、自动驾驶和游戏。这些模型正在超越基本的视频生成范式,复制真实世界的动态并支持广泛的应用。

World Model as Embodied Environment

具身领域的世界模型的开发对于模拟和预测代理如何与外部世界交互并适应至关重要。最初,生成模型专注于模拟世界的视觉方面,使用视频数据来捕获环境中的动态变化。最近,重点转向创建完全交互和具身化的模拟。这些模型不仅代表了世界的视觉元素,而且还结合了更能反映现实世界动态的空间和物理交互。

作为具身环境的世界模型可以分为三类:室内、室外和动态环境。目前大多数工作都集中在开发静态、现有的室内和室外具身环境。新兴趋势是通过生成模型预测动态的、未来的世界,这些模型产生第一人称视角、动态的基于视频的仿真模拟环境。这样的环境可以为训练具身代理提供灵活和现实的反馈,使它们能够与不断变化的环境交互并提高其泛化能力。最近的工作总结如下所示:

b2ba657d148273463ae03e42f815cc88.png

五 应用

自动驾驶领域

在生成式的世界模拟器出现之前,自动驾驶中世界模型的概念已经存在了很长时间。现代自动驾驶系统可分为感知、预测、规划和控制四个主要组成部分。整个过程可以看作是一个决策链路。感知和预测阶段代表了学习车辆世界隐式表示的过程。这也可以看作是世界模型的一种形式。因此,我们将从两个角度详细说明自动驾驶中世界模型的应用和发展:学习世界隐式表示的模块和输出车辆感知数据的世界模拟器。

be9b6e08f7ee5e59b7a9faec311a23ac.png 86b9dce643a3ea0de7af1f5ae82e4073.png

学习隐式表示

自动驾驶汽车通常使用相机、雷达和激光雷达来感知现实世界,通过图像、视频数据和点云数据收集信息。在初始决策范式中,模型通常以感知数据为输入,直接输出自动驾驶汽车的运动规划结果。相反,当人类操作车辆时,他们通常会观察和预测其他交通参与者的当前和未来状态,以确定自己的驾驶策略。因此,通过感知数据学习世界的隐式表示并预测周围环境的未来状态是提高自动驾驶汽车决策可靠性的关键步骤。

在多模态大模型和端到端自动驾驶技术出现之前,自动驾驶汽车的感知和预测任务通常被分配到不同的模块,每个模块都在各自的任务和数据集上进行训练。感知模块从图像、点云和其他来源处理数据以完成对象检测和地图分割等任务,将感知世界投影到抽象几何空间中。此外,预测模块通常会在这些几何空间中操作,以预测周围环境的未来状态,包括交通参与者的轨迹和运动。

近年来,随着多模态大模型的出现和快速发展,许多工作试图将这些模型的一般场景理解能力应用于自动驾驶领域。TOKEN利用语言模型处理长尾预测和规划问题的推理能力,将整个交通场景token化为对象级知识,OmniDrive建立了基于llm的代理,并通过视觉问题回答涵盖了场景描述、反事实推理和决策等多个任务。

世界模拟器

在多模态大模型和基于视觉的生成模型出现之前,交通场景模拟通常在几何空间中进行。这些模拟所依赖的场景数据通常由自动驾驶汽车的感知模块收集或手动构建。这些模拟以几何轨迹的形式表示场景的未来状态,这需要进一步的建模和渲染来产生适合车辆感知的输出。多个模块的级联通常会导致信息丢失并提高模拟的复杂性,使场景控制更具挑战性。此外,逼真的场景渲染通常需要大量的计算资源,这限制了虚拟交通场景生成的效率。

使用基于扩散的视频生成模型作为世界模型部分解决了上述问题。通过对大规模交通场景数据集进行训练,扩散模型可以直接生成与现实非常相似的相机感知数据。此外,扩散模型的固有可控性,结合CLIP等文本图像对齐方法,使用户能够以直接的方式对场景生成施加控制。GAIA-1和DriveDreamer系列是最早使用这种方法构建世界模型的。在此基础上,Drive-WM 引入了规划任务的闭环控制,Vista专注于提高生成结果的分辨率,延长预测持续时间。除了预测视频空间中未来状态的方法外,许多其他工作还探索了不同形式的车辆感知数据。OccWorld和OccSora通过预测3D占用网格来预测世界的未来状态,而Copilot4D通过预测雷达点云数据的变化来构建世界模型。与视频数据相比,这些类型的特征更好地反映了交通场景的空间特征。

机器人

世界模型已成为机器人技术变革性范式,使机器人能够感知、预测和在复杂环境中有效执行。由于神经网络和机器学习算法的进步,机器人能够构建捕获世界关键组件的隐式表示。另一方面,预测模型能够直接预测世界的未来状态,超越了抽象表示,允许机器人预测可能的环境变化并主动做出反应。通过上述强大的技术,机器人直接从现实世界环境中交互和学习 变得实用。llm和世界模型被认为是人工智能(AGI)的可能路径之一。

f03a0b148bb6ae0cfc911a98763818de.png de23fd9a34f08a10d7987e72b1a7a62a.png

Learning Implicit Representation

传统的机器人任务(如物体抓取)通常在高度结构化的环境中执行,其中关键组件被显式建模,消除了机器人独立学习或适应其对世界的理解的需要。然而,当机器人部署在不熟悉的环境中时,特别是那些没有显式建模关键特征或动力学的任务,以前成功的任务可能会失败,因为机器人很难推广到这些未知特征。因此,使机器人能够学习其环境的隐式表示是实现智能的关键第一步。

RoboCraft将视觉观察转移到粒子中,并通过图神经网络捕获底层系统的结构。此外,还对物理空间的感知进行了其他尝试。PointNet首先用非对称函数对非结构化三维点云进行编码,捕捉环境的空间特征。最近的工作将沿局部探索路径获得的观察结果组装成其潜在空间中物理空间的全局表示,使机器人能够跟踪并接近特定的目标。随着LLM语言理解的进步,实现机器人捕获任务意图的新范式涉及以文本形式描述任务,然后通过llm获得文本表示。BC-Z 利用语言表示作为任务表示,提高了机器人的多任务性能。Text2Motion使用LLM将自然语言指令分为task-level和motion-level的规划,以处理复杂的顺序操作任务。

Predicting Future states of Environment

机器人任务总是顺序的和长期的,当前时刻做出的决策可能会对未来的任务的性能产生深远的影响。因此,通过预测他们的行为如何影响未来的环境状态,机器人可以避免潜在的错误并提高任务性能。传统的机器人使用闭环算法使用当前观察来指导动作选择,导致机器人短视并可能导致不可逆的错误,即使它最终意识到它已经采取了错误的动作。尽管一些方法声称在机器人技术中实现突破性的性能,但它们依赖于基于专家知识的显式动态函数,限制了预测的扩展性和鲁棒性。

MORL 引入了单调双曲线模型来预测更新策略的改进。同时,Trajectron++通过条件变分自动编码器计算未来轨迹的概率分布来预测环境。最近,视频生成模型使用diffusion和transformers作为骨干已经成为未来状态预测的流行选择。例如,UniPi 将动作预测制定为视频预测问题,并训练具有初始状态的约束扩散模型作为显式条件上下文,以实现对未来的准确想象。类似地,VIPER 在专家视频上利用了预训练的自回归转换器,引导机器人正常运行,而 Genie 包括一个动态模型,该模型使用先前的视频帧和动作预测环境的下一个状态。GR-2得益于互联网上数百万未标记的视频,在机器人任务上进行了微调,实现了对机器人未来图像和动作轨迹生成的准确预测。

From Simulation to Real World

深度强化学习在机器人策略学习中表现出色,使机器人能够执行稳定的行走,物体抓取,甚至将鞋带捆绑在一起。然而,深度强化学习在样本效率方面并不好。例如,机器人在现实世界中学习解决 Rubik 的 Cube 需要数万年 ,这极大地限制了其实际应用。因此,大多数机器人工作都是基于模拟进行的,各种分布式训练技术提高了样本收集的效率。尽管模拟效率很高,但模拟环境中训练有素的机器人在现实世界中经常失败。这种能力是因为模拟不能完全恢复现实世界,并且训练有素的策略在这些分布外场景中可能会失败。另一方面,准确建模现实世界的环境具有挑战性,因为模拟环境通常与现实世界不同,这种差异在长距离决策中累积,导致策略不适应世界的变化。

世界模型在机器人在现实世界中处理通用任务方面显示出巨大的希望。NeBula构建了一个信念空间,机器人执行推理和决策,能够适应不同的机器人结构和未知环境,而DayDreamer从离线数据中泛化了一个世界模型,使机器人能够在几个小时内直接在现实世界中行走。此外,SWIM 从人类视频中学习,并在没有任何任务监督的情况下从机器人环境中进行微调,这只需要不到30分钟的真实世界的交互数据。OpenEQA 进一步展示了对机器人在环境和任务上的理解的基准,提供了对现实世界具身代理的一般评估。

世界模型的另一应用是Social Simulacra,这里不详述了,感兴趣的参考原文。

六 开放问题和未来方向

  • 物理规则和反事实模拟

  • 丰富社会维度

  • 用具身智能将仿真和现实联系起来

  • 仿真效率

  • 道德和安全关注

① 自动驾驶论文辅导来啦

d104e4fb6190364469d2f4f2cd5021d2.jpeg

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描加入

e3ab0fe3d92d5423d2ed50ce28365ae0.png

 ③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

9a0f4d661d4126cc0bc42e430382af17.png

网页端官网:www.zdjszx.com

④【自动驾驶之心】全平台矩阵

c59405939baf5f2d12ecece6acdd063c.png

### Vision Master Visual Tracking Technology Overview Visual tracking technology involves the process of locating a moving object or multiple objects over time in video sequences. Vision Master represents an advanced system designed to handle complex scenarios with high accuracy and efficiency[^1]. The core components of this technology include initialization, prediction, filtering, and updating stages. #### Initialization Stage During the initialization stage, target information is captured through image processing techniques such as edge detection, color segmentation, or feature point extraction. This initial setup ensures that subsequent frames can be accurately tracked based on established parameters. #### Prediction Stage In the prediction phase, algorithms estimate future positions by analyzing previous movements using models like Kalman filters or particle filters. These predictions help maintain continuity when occlusions occur within scenes. #### Filtering Stage Filtering processes refine estimates made during the prediction step. Techniques employed here may involve mean-shift methods which iteratively adjust hypotheses until convergence occurs at likely locations matching prior knowledge about targets' appearances. #### Updating Stage Finally, updates are applied after each frame analysis completes. New observations replace outdated ones while maintaining historical context necessary for robust performance across varying conditions encountered throughout operation. ### Applications of Vision Master Visual Tracking Vision Master finds application in numerous fields where precise monitoring capabilities provide significant advantages: - **Surveillance Systems**: Continuous observation without human intervention allows automated responses to suspicious activities. - **Autonomous Vehicles**: Enhanced situational awareness enables safer navigation around pedestrians and other vehicles. - **Augmented Reality (AR)**: Seamless integration between real-world environments and virtual elements relies heavily upon reliable tracking mechanisms. - **Medical Imaging**: Non-invasive procedures benefit greatly from accurate localization tools capable of guiding instruments inside patients’ bodies. ```python import cv2 import numpy as np def initialize_tracker(frame, bbox): tracker = cv2.TrackerKCF_create() ok = tracker.init(frame, bbox) return tracker, ok def track_object(tracker, frame): timer = cv2.getTickCount() ok, bbox = tracker.update(frame) fps = cv2.getTickFrequency() / (cv2.getTickCount()-timer) return ok, bbox, fps ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值