- 博客(1401)
- 收藏
- 关注
原创 VideoVLA:视频生成器可作为泛化的机器人机械臂
25年12月来自西安交大、微软亚洲研究院和复旦的论文“VideoVLA: Video Generators Can Be Generalizable Robot Manipulators”。机器人操作的泛化能力对于在开放世界环境中部署机器人以及向通用人工智能迈进至关重要。尽管近期的视觉-语言-动作(VLA)模型利用大型预训练理解模型进行感知和指令跟踪,但它们对新任务、新物体和新环境的泛化能力仍然有限。本文提出一种名为VideoVLA的简单方法,旨在探索将大型视频生成模型转化为机器人VLA操作器的潜力。给
2025-12-24 00:15:00
800
原创 具身思维树:基于具身世界模型的刻意操控规划
25年12月来自中科院大学、清华大学、京东探索研究院、上海科技大学和南京大学的论文“Embodied Tree of Thoughts: Deliberate Manipulation Planning with Embodied World Model”。世界模型已成为机器人操作规划的关键组成部分,使智体能够在执行操作前预测未来的环境状态并推断其后果。虽然视频生成模型的应用日益广泛,但它们通常缺乏严谨的物理基础,导致出现幻觉,并且无法在长期物理约束方面保持一致性。为了解决这些局限性,提出具身思维树(E
2025-12-24 00:15:00
892
原创 从生成的人体视频到符合物理规律的机器人轨迹
25年12月来自UC Berkeley、NYU和约翰内斯·开普勒大学的论文“From Generated Human Videos to Physically Plausible Robot Trajectories”。视频生成模型在合成新场景下的人类动作方面正迅速提升,有望成为上下文相关机器人控制的高级规划器。为了实现这一潜力,一个关键的研究问题仍然悬而未决:人形机器人如何才能以零样本的方式执行生成视频中的人类动作?这一挑战源于生成视频通常存在噪声和形态畸变,使得直接模仿比真实视频更加困难。为了解决这
2025-12-23 00:15:00
1158
原创 用于机器人控制的迭代组合数据生成方法
25年12月来自UPenn和Stony Brook U的论文“Iterative Compositional Data Generation for Robot Control”。收集机器人操作数据成本高昂,因此难以获取多目标、多机器人和多环境场景下组合数量庞大的任务的演示数据。虽然最近的生成模型可以为单个任务合成有用的数据,但它们没有利用机器人领域的组合结构,难以泛化到未见的任务组合。本文提出一种语义组合扩散Transformer,它将状态转移分解为机器人、物体、障碍物和目标特定的组件,并通过注意机制
2025-12-23 00:15:00
343
原创 NavForesee:用于分层规划和双视界导航预测的统一视觉语言世界模型
25年12月来自高德和阿里的论文“NavForesee: A Unified Vision-Language World Model for Hierarchical Planning and Dual-Horizon Navigation Prediction”。在人工智能领域,如何运用复杂的自然语言指令,为长期任务提供具身导航仍然是一项艰巨的挑战。现有的智体往往难以对未知环境进行稳健的长期规划,导致较高的失败率。为了克服这些局限性,提出NavForesee,一种视觉语言模型(VLM),它将高级语言规
2025-12-22 00:15:00
1206
原创 ASTRA:基于自回归去噪的通用交互式世界模型
25年12月来自清华和快手的论文“ASTRA : General Interactive World Model With Autoregressive Denoising”。扩散transformer技术的最新进展使得视频生成模型能够从文本或图像生成高质量的视频片段。然而,能够根据过去的观察和动作预测长期未来情景的世界模型仍然有待深入研究,尤其是在通用场景和各种形式的动作方面。为了弥补这一差距,Astra,一个交互式通用世界模型,可以为各种场景(例如自动驾驶、机器人抓取)生成逼真的未来情景,并支持精确
2025-12-22 00:15:00
846
原创 迈向安全可信的具身人工智能:基础、现状与展望(上)
25年9月来自上海AI实验室、华东师范和清华大学的论文“Towards Safe and Trustworthy Embodied AI: Foundations, Status, and Prospects”。具身人工智能(EAI)日益增强的自主性和物理能力给安全性和可信度带来了严峻挑战。与纯粹的数字人工智能不同,感知、规划或交互方面的故障可能导致直接的人身伤害、财产损失,甚至违反人类安全和社会规范。然而,当前的EAI基础模型忽略模型能力与安全性和可信度之间不匹配的风险。一些研究试图解决这些问题,但它
2025-12-21 00:15:00
973
原创 迈向安全可信的具身人工智能:基础、现状与展望(下)
25年9月来自上海AI实验室、华东师范和清华大学的论文“Towards Safe and Trustworthy Embodied AI: Foundations, Status, and Prospects”。具身人工智能(EAI)日益增强的自主性和物理能力给安全性和可信度带来了严峻挑战。与纯粹的数字人工智能不同,感知、规划或交互方面的故障可能导致直接的人身伤害、财产损失,甚至违反人类安全和社会规范。然而,当前的EAI基础模型忽略模型能力与安全性和可信度之间不匹配的风险。一些研究试图解决这些问题,但它
2025-12-21 00:15:00
1529
原创 智体人工智能安全:威胁、防御、评估和未解决的挑战(上)
25年10月来自南佛罗里达大学的论文“Agentic AI Security: Threats, Defenses, Evaluation, and Open Challenges”。由大语言模型 (LLM) 驱动、具备规划、工具使用、记忆和自主性等能力的智体人工智能系统,正逐渐成为强大而灵活的自动化平台。它们能够在网络、软件和物理环境中自主执行任务,这带来新的、更显著的安全风险,这些风险既不同于传统的人工智能安全,也不同于传统的软件安全。本综述概述智体人工智能特有的威胁分类,回顾最新的基准测试和评估方
2025-12-20 00:15:00
1109
原创 智体人工智能安全:威胁、防御、评估和未解决的挑战(下)
25年10月来自南佛罗里达大学的论文“Agentic AI Security: Threats, Defenses, Evaluation, and Open Challenges”。由大语言模型 (LLM) 驱动、具备规划、工具使用、记忆和自主性等能力的智体人工智能系统,正逐渐成为强大而灵活的自动化平台。它们能够在网络、软件和物理环境中自主执行任务,这带来新的、更显著的安全风险,这些风险既不同于传统的人工智能安全,也不同于传统的软件安全。本综述概述智体人工智能特有的威胁分类,回顾最新的基准测试和评估方
2025-12-20 00:15:00
789
原创 迈向稳健安全的具身人工智能:关于漏洞与攻击的综述(上)
25年11月来自浙大、黑龙江大学和贵州大学的论文“Towards Robust and Secure Embodied AI: A Survey on Vulnerabilities and Attacks”。具身人工智能系统,包括机器人和自动驾驶汽车,正日益融入现实世界的应用,并面临着一系列源于环境和系统层面的漏洞。这些漏洞表现为传感器欺骗、对抗性攻击以及任务和运动规划失败,对系统的鲁棒性和安全性构成重大挑战。尽管相关研究日益增多,但现有综述很少专门关注具身人工智能系统特有的安全挑战。以往的研究大多要
2025-12-19 00:15:00
1855
原创 迈向稳健安全的具身人工智能:关于漏洞与攻击的综述(下)
25年11月来自浙大、黑龙江大学和贵州大学的论文“Towards Robust and Secure Embodied AI: A Survey on Vulnerabilities and Attacks”。具身人工智能系统,包括机器人和自动驾驶汽车,正日益融入现实世界的应用,并面临着一系列源于环境和系统层面的漏洞。这些漏洞表现为传感器欺骗、对抗性攻击以及任务和运动规划失败,对系统的鲁棒性和安全性构成重大挑战。尽管相关研究日益增多,但现有综述很少专门关注具身人工智能系统特有的安全挑战。
2025-12-19 00:15:00
1107
原创 EveryDayVLA:一种经济实惠的机器人操作视觉-语言-动作模型
25年11月来自匹兹堡大学的论文“EveryDayVLA: A Vision-Language-Action Model for Affordable Robotic Manipulation”。视觉-语言-动作(VLA)模型虽然能够将视觉输入和语言指令直接映射到机器人动作,但它们通常依赖于昂贵的硬件,并且在陌生或复杂的场景中表现不佳。EverydayVLA,是一款六自由度机械臂,组装成本仅为 300 美元,能够承载适中的有效载荷和工作空间。该机械臂采用单一的统一模型,能够联合输出离散和连续动作,并且自
2025-12-18 00:15:00
763
原创 PhysTwin:基于视频的可变形体物理信息重建与模拟
25年3月来自哥伦比亚大学和UIUC的论文“PhysTwin: Physics-Informed Reconstruction and Simulation of Deformable Objects from Videos”。创建现实世界物体的物理数字孪生体在机器人、内容创作和扩展现实(XR)领域具有巨大的潜力。本文提出一种名为 PhysTwin 的框架,它利用动态物体交互的稀疏视频,生成照片级真实且物理上逼真的实时交互式虚拟模型。该方法主要包含两个关键组件:(1)基于物理信息的表示方法,该方法结合弹
2025-12-18 00:15:00
1297
原创 GigaWorld-0:以世界模型为数据引擎赋能具身人工智能
25年11月来自极佳科技的论文“GigaWorld-0: World Models as Data Engine to Empower Embodied AI”。世界模型正逐渐成为可扩展、数据高效的具身智能的基础范式。本文提出 GigaWorld-0,一个统一的世界模型框架,专门设计为视觉-语言-动作 (VLA) 学习的数据引擎。GigaWorld-0 集成两个协同组件:GigaWorld-0-Video 和 GigaWorld-0-3D。GigaWorld-0-Video 利用大规模视频生成技术,在对
2025-12-17 00:15:00
1246
原创 InternData-A1:高保真合成数据,用于预训练通才策略
25年11月来自上海AI实验室和北大的论文“InternData-A1: Pioneering High-Fidelity Synthetic Data for Pre-training Generalist Policy”。近期研究探讨真实数据和合成数据如何提升视觉-语言-动作(VLA)模型的泛化能力。尽管现有VLA模型已展现出大规模真实机器人预训练的显著效果,但合成数据此前尚未在大规模应用方面展现出与之相当的能力。本文证明,仅使用合成数据即可在VLA模型预训练方面达到最强π-数据集的性能,揭示大规模
2025-12-17 00:15:00
824
原创 GEN-0:可随物理交互扩展的具身基础模型
25年11月来自Generalist AI 团队的博客论文“GEN-0: Embodied Foundation Models That Scale with Physical Interaction”。多年来,机器人领域的基础模型主要采用视觉语言预训练作为扩展机器人规模的垫脚石,这样能够将现有大型多模态模型的语义泛化优势迁移到机器人领域。然而,目前尚缺乏的是如何有效地在机器人领域本身扩展大型多模态模型的训练——建立能够证实机器人智能随着计算和数据量的增加而持续(且可预测地)提升的扩展规律,正如其他领域
2025-12-16 00:15:00
816
原创 机器人赋能的数据飞轮:在自然环境中部署机器人进行持续数据收集和基础模型适配
25年11月来自斯坦福和TRI的论文“Robot-Powered Data Flywheels: Deploying Robots in the Wild for Continual Data Collection and Foundation Model Adaptation”。基础模型在视觉和语言领域展现强大的零样本学习能力,但它们对互联网预训练数据的依赖使其在非结构化的真实世界环境中表现脆弱。部署过程中遇到的杂乱无章的真实世界数据——例如低分辨率图像、被遮挡的标志或多语言文本——在现有语料库中仍然
2025-12-16 00:15:00
1402
原创 IPR-1:交互式物理推理器
25年11月来自上海交大、上海创新研究院和CMU的论文“IPR-1: Interactive Physical Reasoner”。 人类通过观察、与环境互动以及内化物理和因果关系来学习。本文旨在探讨智体是否也能通过互动学习类似人类的推理能力,并随着经验的积累不断提升。采用游戏-到-未知(G2U)的框架进行研究,精心挑选1000多个具有不同物理和因果机制的异构游戏,并在三个类人层面进行评估:生存、好奇心和实用性,从原始直觉到目标驱动的推理。其分析揭示互补的缺陷:VLM/VLA能够进行推理,但在互动环境中
2025-12-15 00:15:00
874
原创 PhysX-Anything:从单张图像创建可用于模拟的物理 3D 资源
25年11月来自的论文“PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image”。3D建模正从静态视觉表示转向可直接用于仿真和交互的物理、可活动的资产。然而,大多数现有的3D生成方法忽略关键的物理和关节属性,从而限制它们在具身人工智能中的应用。为了弥补这一差距,PhysX-Anything,是一个可用于仿真的物理3D生成框架。它只需一张自然场景图像,即可生成具有明确几何形状、关节和物理属性的高质量仿真就绪3D资产。具体而
2025-12-15 00:15:00
690
原创 RynnVLA-002:统一的视觉-语言-行动和世界模型
25年11月来自阿里达摩院、湖畔研究院和浙大的论文“RynnVLA-002: A Unified Vision-Language-Action and World Model”。RynnVLA-002,是一个统一的视觉-语言-动作 (VLA) 和世界模型。该世界模型利用动作和视觉输入来预测未来的图像状态,学习环境的底层物理规律以改进动作生成。反过来,VLA 模型根据图像观测生成后续动作,增强视觉理解并支持世界模型的图像生成。RynnVLA-002 的统一框架实现环境动力学和动作规划的联合学习。实验表明,
2025-12-14 00:15:00
1042
原创 视频生成与世界模型有多远:基于物理定律的视角
25年6月来自字节、清华和以色列理工(Technion)的论文“How Far is Video Generation from World Model: A Physical Law Perspective”。 人们认为,视频生成模型的可扩展性有望构建符合基本物理定律的世界模型。然而,这些模型能否仅凭视觉发现物理定律仍值得商榷。一个学习真实定律的世界模型,应该能够对细微差别做出鲁棒的预测,并能正确地外推到未见过的场景。本文评估三种关键场景:分布内泛化、分布外泛化和组合泛化。其开发一个二维仿真测试平台,
2025-12-14 00:15:00
1143
原创 LLM的测试-时规模化:基于子问题结构视角的综述
25年来自Penn State和南洋理工(新加坡)的论文“Test-time Scaling of LLMs: A Survey from A Subproblem Structure Perspective”。本文综述通过在推理阶段分配额外计算资源来提高预训练LLM预测精度的技术。在测试-时规模化方法的分类,特别关注问题如何分解为子问题以及这些子问题的拓扑结构——无论是顺序的、并行的还是树状的。这种视角能够将诸如“思维链”(Chain-of-Thought)、“分支-求解-合并”(Branch-Sol
2025-12-13 00:15:00
558
原创 π∗0.6:一个能从经验中学习的VLA
25年11月来自PI 公司的论文“π∗0.6 : a VLA That Learns From Experience”。本文研究如何通过强化学习(RL)在实际部署中改进视觉-语言-动作(VLA)模型。其提出一种通用方法,即基于优势条件策略的经验与修正强化学习(RECAP),该方法通过优势条件对VLA进行强化学习训练。这个方法将异构数据融入到自我改进过程中,包括演示数据、策略内数据采集以及在自主执行期间提供的专家远程操作干预。RECAP 首先使用离线强化学习预训练一个通用型VLA,称之为π*0.6,然后可
2025-12-13 00:15:00
1319
原创 RoboAfford++:一个用于机器人操作和导航中多模态 Affordance 学习的生成式AI增强数据集
25年11月来自小米、中科院自动化所、清华、人大和合肥工大的论文“RoboAfford++: A Generative AI-Enhanced Dataset for Multimodal Affordance Learning in Robotic Manipulation and Navigation”。机器人操作和导航是具身智能的基本能力,使机器人能够与物理世界进行有效的交互。在操作中,预测精确的交互位置对于抓取和放置物体至关重要。在导航中,找到目标并理解可通行空间对于安全移动至关重要。实现这些能
2025-12-12 00:15:00
1130
原创 利用人工智能模拟视觉世界:路线图
25年11月来自CMU、新加坡南洋理工和快手公司的论文“Simulating the Visual World with Artificial Intelligence: A Roadmap”。视频生成领域正在发生转变,从专注于生成视觉效果出色的短片转向构建支持交互并保持物理合理性的虚拟环境。这些发展预示着视频基础模型的出现,这些模型不仅作为视觉生成器,而且还作为隐式世界模型,模拟支配真实或想象世界的物理动力学、主体-环境交互以及任务规划。本文系统地概述这一演变过程,并将现代视频基础模型概念化为两个核心
2025-12-12 00:15:00
1070
原创 MiMo-Embodied:小米X-具身基础模型
25年11月来自小米具身智能团队的论文“MiMo-Embodied: X-Embodied Foundation Model Technical Report”。开源的模型 MiMo-Embodied,是整合自动驾驶和具身人工智能并取得最先进性能的跨具身基础模型。MiMo-Embodied 在任务规划、affordance 预测和空间理解等 17 项具身人工智能基准测试中均创下新纪录,同时在环境感知、状态预测和驾驶规划等 12 项自动驾驶基准测试中也表现出色。在这些任务中,MiMo-Embodied 的
2025-12-11 00:15:00
704
原创 VIRAL:用于人形机器人运动操控的大规模视觉模拟-到-现实迁移
25年11月来自Nvidia、CMU、UC Berkeley和香港中文大学的论文“VIRAL: Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation”。人形机器人实际部署的一大障碍是缺乏自主移动操作技能。VIRAL,一个视觉化的仿真-到-真实框架,它完全在仿真环境中学习人形机器人的移动操作,并将其零样本部署到真实硬件上。VIRAL 采用师-生模型设计:一个具有特权的强化学习教师模型,基于完整状态进行操作,利用增量动作空间和参考状态初始化学习
2025-12-11 00:15:00
1265
原创 NORA-1.5:一种基于世界模型和基于动作偏好奖励训练的视觉-语言-动作模型
25年11月来自南洋理工、Lambda实验室和新加坡技术和设计大学的论文“NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards”。视觉-语言-动作(VLA)模型近年来在各种具身任务中展现出令人瞩目的性能,但其可靠性和泛化能力仍有待提高,尤其是在不同具身或真实世界环境中部署时。本文提出一种基于预训练NORA主干网络的VLA模型NORA-1.5,并为其添加
2025-12-10 00:15:00
1360
原创 MHR:动量人体模型
25年11月来自Meta的论文“MHR: Momentum Human Rig”。MHR,一个参数化人体模型,它结合ATLAS的解耦骨骼/形状范式以及受Momentum库启发的灵活、现代的绑定和姿态校正系统。该模型能够实现富有表现力且符合解剖学原理的人体动画,支持非线性姿态校正,并专为与AR/VR和图形学流水线的稳健集成而设计。
2025-12-10 00:15:00
1801
原创 具身系统中的生成式AI:性能、效率和可扩展性的系统级分析(上)
25年4月来自Georgia Tech、明尼苏达大学和哈佛大学的论文“Generative AI in Embodied Systems: System-Level Analysis of Performance, Efficiency and Scalability”。具身系统利用大语言模型(LLM)驱动的集成感知、认知、行动和高级推理能力,使生成式自主智体能够与物理世界互动,从而在现实世界环境中处理复杂、长周期、多目标任务方面具有巨大潜力。然而,由于运行时延迟过长、可扩展性有限以及系统对环境因素高度
2025-12-09 00:15:00
1019
原创 具身系统中的生成式AI:性能、效率和可扩展性的系统级分析(下)
25年4 月来自Georgia Tech、明尼苏达大学和哈佛大学的论文“Generative AI in Embodied Systems: System-Level Analysis of Performance, Efficiency and Scalability”。具身系统利用大语言模型(LLM)驱动的集成感知、认知、行动和高级推理能力,使生成式自主智体能够与物理世界互动,从而在现实世界环境中处理复杂、长周期、多目标任务方面具有巨大潜力。然而,由于运行时延迟过长、可扩展性有限以及系统对环境因素高
2025-12-09 00:15:00
1660
原创 DexNDM:基于关节神经动力学模型弥合灵巧手内旋转的仿真-现实差距
25年10月来自清华、北大、上海姚期智研究院和银河通用机器人(Galbot)的论文“DexNDM: Closing the Reality Gap for Dexterous In-hand Rotation via Joint-wise Neural Dynamics Model”。在机器人领域,实现通用的手持物体旋转仍然是一项重大挑战,这主要是由于难以将仿真策略推广到现实世界。灵巧操作复杂且涉及大量接触的动力学特性造成“现实差距”,使得以往的研究仅限于几何形状简单、物体尺寸和长宽比有限、腕部姿态受限
2025-12-08 00:15:00
995
原创 DecoupledGaussian:基于物理交互的物体-场景解耦
25年3月来自爱丁堡大学、吉林大学、浙江大学和密西根州立的论文“DecoupledGaussian: Object-Scene Decoupling for Physics-Based Interaction”。DecoupledGaussian 系统能够将静态物体与其在真实场景视频中捕捉的接触面解耦,这是实现逼真的基于牛顿力学物理模拟的关键前提。与以往专注于合成数据或沿接触面进行弹性抖动的方法不同,这些方法限制物体的全分离或独立运动,而 DecoupledGaussian 允许物体发生显著的位置变化,
2025-12-08 00:15:00
1054
原创 π*0.6:一个能从经验中学习的VLA模型
25年11月来自PI的博客((https://www.physicalintelligence.company/blog/pistar06)“π*0.6: a VLA that Learns from Experience“ 。如何学习组装纸箱?希望快速高效地完成,所以首先会教会一些基础知识:哪些策略有效,常见的错误有哪些,以及正确的技巧是什么。其次,一位优秀的老师不仅会演示如何操作,还会指导,纠正自行操作时犯的错误。但是,仅仅依靠指导是不够的:最终,熟能生巧,成为纸箱组装大师的第三步是反复练习,直到熟
2025-12-07 00:15:00
1466
原创 综述:大语言模型时代下的硬件与软件协同设计
24年10月来自杜克大学和 JHU 的论文“A Survey: Collaborative Hardware and Software Design in the Era of Large Language Models”。大语言模型(LLM)的快速发展显著改变人工智能领域,展现出卓越的自然语言处理能力,并朝着多模态功能方向迈进。这些模型正日益融入各种应用,对研究和产业都产生深远的影响。然而,它们的开发和部署也面临着诸多挑战,包括对大量计算资源的需求、高能耗以及复杂的软件优化。与传统的深度学习系统不同,
2025-12-07 00:15:00
1148
原创 Alpamayo-R1:连接推理和动作预测,实现长尾环境下的可泛化自动驾驶
25年11月来自 Nvidia 的论文“Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail”。通过模仿学习训练的端到端架构通过扩展模型规模和数据量推动了自动驾驶技术的发展,但在安全至关重要的长尾场景中,由于监督信息稀疏且因果理解有限,其性能仍然脆弱。为了解决这个问题,本文引入 Alpamayo-R1 (AR1),这是一种视觉-语言-动作模型
2025-12-06 00:15:00
991
原创 AdaDrive:基于语言的自适应快-慢驾驶系统
25年11月来自香港中文大学(深圳)、深圳大数据研究院、中山大学、百度和广东大数据分析处理重点实验室的论文“AdaDrive: Self-Adaptive Slow-Fast System for Language-Grounded Autonomous Driving”。将大语言模型 (LLM) 有效集成到自动驾驶系统中,需要在利用高级推理能力和保持实时效率之间取得平衡。现有方法要么过于频繁地激活 LLM,导致计算开销过大;要么采用固定的调度方案,无法适应动态的驾驶环境。为了应对这些挑战, AdaDr
2025-12-06 00:15:00
764
原创 AnySplat:基于无约束视图的前馈 3D 高斯散射
25年9月来自中科大、上海AI实验室、香港中文大学、布朗大学、上海交大和香港大学的论文“AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views”。AnySplat,是一种用于从未经标定的图像集合中合成新视角的正向馈送网络。与需要已知相机姿态和逐场景优化的传统神经渲染流程,以及在密集视角计算量下难以应对的最近正向馈送方法不同,本文模型只需一次前向传递即可预测所有信息。一次前向传递即可生成一组 3D 高斯图元,这些图元编码场
2025-12-05 00:15:00
850
原创 iMoWM:驯服用于机器人操作的交互多模态世界模型
25年10月来自新加坡国立和清华的论文“iMoWM: Taming Interactive Multi-Modal World Model for Robotic Manipulation”。学习型世界模型在机器人操作领域具有巨大的潜力,因为它们可以作为真实世界交互的模拟器。尽管基于二维视频的世界模型已取得了长足的进步,但这些方法通常缺乏几何和空间推理能力,而这对于捕捉三维世界的物理结构至关重要。为了克服这一局限性,iMoWM,一种交互式世界模型,以自回归的方式,根据动作生成彩色图像、深度图和机器人手臂
2025-12-05 00:15:00
823
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅