自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(88)
  • 收藏
  • 关注

原创 【论文自动阅读】GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation

字节跳动提出GR-RL机器人学习框架,通过“过滤优质人类演示轨迹、增强数据、在线优化部署行为”的多阶段训练,将通用视觉语言动作(VLA)策略升级为能完成毫米级精度、长期操作任务的专家策略,且是首个能自动完成鞋带穿孔系结(成功率83.3%)的学习型模型。

2025-12-29 15:55:53 601

原创 RL中的reward model、value function 和 advantage function

即时反馈,是学习的“监督信号”。:对未来的预期累积回报。:动作相对于当前策略平均表现的“增益”,用于更高效地学习策略。它们层层递进,共同构成了强化学习中“评估—比较—优化”的核心逻辑。

2025-12-29 14:53:59 868

原创 【论文自动阅读】DataMIL : Selecting Data for Robot Imitation Learning with Datamodels

本文提出DataMIL框架,基于数据模型范式,通过策略自身识别能提升机器人模仿学习性能的数据,用任务特定数据的替代损失函数避免昂贵的环境推演,在60多个模拟和现实操作任务中验证其有效性,提升任务成功率且优于多个基线方法。

2025-12-29 14:33:30 811

原创 【论文自动阅读】AOMGen: Photoreal, Physics-Consistent Demonstration Generation for Articulated Object Manipu

提出名为AOMGen的框架,仅通过单份真实场景扫描数据、操作演示数据及同类别关节式物体数字资产库,生成照片级真实且物理规律一致的关节式物体操作演示数据,用于微调视觉-语言-动作(VLA)模型,将其操作成功率从0%提升至88.7%,且能应对未见过的物体和布局。

2025-12-28 20:24:24 461

原创 【论文自动阅读】GeoPredict: Leveraging Predictive Kinematics and 3D Gaussian Geometry for Precise VLA Manipu

本文提出GeoPredict框架,在视觉-语言-动作(VLA)机器人操控模型基础上,加入轨迹级运动学预测和3D高斯几何预测模块,训练时通过深度渲染对这些预测模块进行监督以提升模型精准3D推理能力,推理时仅需轻量查询令牌且不调用3D解码,最终在仿真和真实世界操控任务中超越传统VLA基线。

2025-12-28 18:33:55 793

原创 【论文自动阅读】Unified Video Action Model

本文提出一种统一视频动作模型(UVA),通过联合学习视频与动作的潜在表示、解耦视频-动作解码并结合掩码训练,在机器人领域实现高精度动作推理、视频生成及前向/逆向动力学建模等多功能任务,同时兼顾效率与性能。

2025-12-26 17:37:43 526

原创 【论文自动阅读】Evaluating Gemini Robotics Policies in a Veo World Simulator

Google DeepMind团队构建了基于Veo视频基础模型的生成式评估系统,用于在名义场景、分布外(OOD)场景及安全测试中评估双臂机器人的Gemini Robotics策略,并通过1600+次真实世界实验,验证该系统能准确预测策略相对性能、OOD下性能退化及安全漏洞。

2025-12-26 14:51:53 641

原创 【论文自动阅读】Ctrl-World: A Controllable Generative World Model for Robot Manipulation

本文提出“Ctrl-World”这一可控多视角生成式世界模型,让机器人能在虚拟空间中预演任务,无需大量真实世界实验即可准确评估通用机器人政策的表现,并通过生成虚拟成功任务轨迹优化政策,最终使机器人在陌生场景下的任务平均成功率提升44.7%。

2025-12-26 14:13:37 596

原创 【论文自动阅读】Reinforcing Action Policies by Prophesying

本文提出ProphRL框架,通过预训练的动作条件世界模型Prophet生成动作对应的未来场景视频,再结合适配VLA流动作头的FA-GRPO算法和梯度稳定策略FlowScale,对VLA政策进行强化学习后训练,解决了传统VLA模仿学习过拟合、RL真实交互成本高及模拟器迁移难的问题,提升了VLA在基准测试和真实机器人上的任务成功率。

2025-12-26 14:12:41 605

原创 【论文自动阅读】WMPO: World Model-based Policy Optimization for Vision-Language-Action Models

本文提出WMPO框架,通过构建像素级视频生成世界模型,让视觉-语言-动作(VLA)模型无需与真实环境交互,就能进行在线强化学习(RL),解决了现有VLA模型依赖模仿学习、真实环境RL样本效率低的问题,还能实现自我修正等新兴行为。

2025-12-25 16:36:40 820

原创 【论文自动阅读】Learning Interactive World Model for Object-Centric Reinforcement Learning

本文提出“因子化交互对象中心世界模型(FIOC-WM)”,通过两级分解(对象级显式交互建模+属性级静动态特征分离)从图像中学习结构化世界模型,并结合分层策略(高层选交互顺序、低层执行动作),提升强化学习在机器人控制等任务中的样本效率和泛化能力。

2025-12-25 15:31:19 496

原创 【论文自动阅读】Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface

提出一种名为Real2Edit2Real的框架,通过3D控制界面连接3D可编辑性与2D视觉数据,无需仿真引擎和数字资产,从少量RGB机器人演示中生成多样化、多视图且物理一致的操作演示视频,大幅提升数据效率并解决空间泛化难题。

2025-12-25 15:17:20 648

原创 【论文自动阅读】Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic D

本文提出“统一世界模型(UWM)”框架,将视频扩散与动作扩散整合到统一Transformer架构中,通过独立控制两种模态的扩散时间步,实现利用带动作标注的机器人数据和无动作标注的视频数据预训练,最终得到比传统模仿学习更泛化、更鲁棒的机器人操纵策略,同时还能灵活实现前向动力学预测、逆动力学预测和视频生成。

2025-12-25 15:02:08 731

原创 【论文自动阅读】PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelli

本文提出了将人类第一视角视频转化为结构化训练数据的流程,构建了E2E-3M数据集,据此训练出PhysBrain模型,该模型能提升第一视角理解与规划能力,并有效迁移到机器人控制任务中,为视觉语言模型与物理智能搭建桥梁。

2025-12-25 14:26:16 447

原创 【论文自动阅读】CoVAR: Co-generation of Video and Action for Robotic Manipulation via Multi-Modal Diffusion

video和action联合生成,改了一下模型架构

2025-12-22 21:37:24 809

原创 【论文自动阅读】Large Video Planner Enables Generalizable Robot Control

研究者提出“大型视频规划器(LVP)”,通过大规模人类活动与机器人演示视频预训练,让模型能根据任务指令和初始场景生成零样本视频计划,再提取视频中的动作并适配到真实机器人(如灵巧手、平行夹爪),实现跨未知任务和环境的机器人控制泛化。

2025-12-22 21:22:29 927

原创 【论文自动阅读】MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation

研究者提出名为MiVLA的视觉-语言-动作(VLA)模型,通过“人机相互模仿预训练”机制,融合易获取的模拟机器人数据(提供机器人操作先验)和人类日常视频数据(提供真实场景行为知识),解决真实机器人数据稀缺的问题,最终提升模型在模拟和真实机器人平台上的泛化能力。

2025-12-22 21:09:31 515

原创 【论文自动阅读】Motus: A Unified Latent Action World Model

action world model

2025-12-21 16:38:38 831

原创 【论文自动阅读】EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models

本文提出EVOLVE-VLA框架,让视觉-语言-动作(VLA)模型在部署测试时能通过与环境交互自主学习,无需依赖大量专家演示和测试时难以获取的“先知奖励”,还能通过平滑噪声反馈、逐步扩展学习范围等方式提升任务表现,甚至实现跨任务泛化。

2025-12-21 16:12:07 761

原创 强化学习知识集锦

TD: 时序差分学习(Temporal Difference Learning)

2025-12-18 01:00:08 127

原创 【论文自动阅读】Deep Reinforcement Learning: A Brief Survey

这篇综述先介绍强化学习(RL)的基础框架(如MDP)与挑战,再重点梳理深度强化学习(DRL)的核心算法(如DQN、TRPO、A3C)、深度神经网络在视觉理解中的应用,最后探讨当前研究方向(如模型基RL、分层RL)与待解决问题。

2025-12-17 20:55:37 469

原创 RL中的【同步和异步】以及【Online RL和Offline RL】以及【on-policy和off-policy】的概念

RL中的【同步和异步】以及【Online RL和Offline RL】以及【on-policy和off-policy】的概念

2025-12-15 17:39:25 418

原创 RL中的同步和异步(On-Policy & Off-Policy)的通俗解释

RL中的同步和异步

2025-12-15 17:30:16 301

原创 【论文自动阅读】Closing the Train-Test Gap in World Models for Gradient-Based Planning

本文提出在线世界建模和对抗性世界建模两种微调方法,缩小世界模型训练(预测下一个状态)与测试(优化动作序列)的目标差距,使基于梯度的规划在机器人操纵和导航任务中性能接近或超越传统方法,且计算时间仅为传统方法的10%。

2025-12-15 14:54:40 648

原创 【论文自动阅读】Bridging Scale Discrepancies in Robotic Control via Language-Based Action Representations

主要就是把细粒度动作信息转化为语言表征,用语言这种粗粒度的信息来作为中间量,然后来弥补不同机器人的差距,相当于从一个更高阶的角度来处理动作。然后用的时候再从语言指导生成细粒度动作。

2025-12-15 12:48:47 482

原创 【论文自动阅读】HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-

结合过去、现在、未来的信息。范式和以往vla相同,但是输入和输出都有所不同。

2025-12-15 01:05:52 671

原创 【论文自动阅读】See Once, Then Act: Vision-Language-Action Model with Task Learning from One-Shot Video Demo

就像不同语言(如人类动作、机器人动作)需要统一翻译器,latent动作tokenizer就是“动作翻译器”:它观察专家(如人类)操作视频和机器人动作轨迹,提取动作的“核心特征密码(latent动作)”。同时通过“循环一致性”验证:用A的“动作密码”生成B的动作画面,再从画面反推密码,确保密码在不同设备间通用,解决“人类手势”和“机器人关节动作”无法直接适配的问题。通过并行解码,一次性预测出专家视频中的动作序列和机器人接下来要做的动作,就像人类看一遍教程后,结合自己看到的场景,立刻知道下一步怎么做。

2025-12-14 21:16:47 847

原创 【论文自动阅读】LatBot: Distilling Universal Latent Actions for Vision-Language-Action Models

2025-12-14 20:51:11 417

原创 【论文自动阅读】Hierachical Mixture-of-Experts for Generalist Vision-Language-Action Polices

2025-12-12 14:51:51 644

原创 【论文自动阅读】Intelligent Robot Manipulation Requires Self-Directed Learning

让机器人像人类自主学习一样完成操控任务:第一步“定目标”,把“从抽屉拿零食”这类复杂任务拆成“开抽屉、拿零食、递零食、关抽屉”等子目标,并用图像/文本等简洁形式描述;第二步“学技能”,可通过看人类演示视频(视觉)、读操作说明书(文本)、自己动手尝试调整(动觉)三种方式;第三步“查效果”,用一个“价值函数”判断当前状态离目标有多远(比如“抽屉开了一半”的价值比“没开”高),若没达标就重新调整子目标或学习方式,形成闭环。,侧重理论框架提出与方向论证,未开展具体实验,因此无明确实验设置、实验数据及量化评估方式。

2025-12-12 01:21:15 232

原创 【论文自动阅读】ConceptAttention: Diffusion Transformers Learn Highly Interpretable Features

可将ConceptAttention理解为给DiT模型加了一个“概念探测器”:用户输入想定位的概念(如“狗”“天空”),这个“探测器”会先把概念转换成DiT能理解的“嵌入信号”;DiT处理图像和文本提示时,“探测器”会跟着同步更新——只“看”图像和其他概念的信息,不干扰图像生成;最后通过计算“探测器信号”与图像各区域的相似度,画出“哪里有目标概念”的显著性图,还能结合多层结果让定位更准。

2025-12-12 01:02:13 241

原创 【论文自动阅读】From Generated Human Videos to Physically Plausible Robot Trajectories

本文提出GenMimic框架与两阶段流水线,让类人机器人无需任务特定微调,就能零样本模仿生成视频中存在噪声和形态失真的人类动作,同时构建了基准数据集GenMimicBench用于性能评估。

2025-12-12 00:39:15 425

原创 【论文自动阅读】REPLAY: Robot Embodiment via Intent-aware Policy Imitation by Replicating Human Demonstratio

本文设计了一个叫REPLAY的机器人模仿学习框架,让机器人能直接从YouTube这类普通单目视频里学技能——先把视频拆成一个个有明确目的的小任务,弄明白人类的动作意图和3D运动轨迹,再根据机器人自身的身体结构和环境特点调整动作,最终精准复刻人类的操作。还配套了Video2Sim工具,能把视频还原成3D仿真环境,方便机器人反复训练和测试,在甜点制作、薯片倒出等任务中,比现有方法的动作还原度和任务成功率都更高。

2025-12-09 21:38:47 464

原创 【论文自动阅读】4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

本文提出了4D高斯溅射(4D-GS)方法,不再像传统方式那样为动态场景的每一帧单独构建3D高斯模型,而是通过融合3D高斯和4D神经体素的统一表示,搭配时空结构编码器和轻量解码器,精准建模高斯的运动和形状变化。该方法在保证高渲染质量的同时,实现了动态场景的实时渲染,还兼顾了训练效率和存储经济性,适用于VR、AR等需要动态场景呈现的场景。

2025-12-09 17:19:31 653

原创 【论文自动阅读】Hierarchical Vision Language Action Model Using Success and Failure Demonstrations

本文设计了一个名为VINE的分层视觉-语言-动作(VLA)模型,不再像以往只利用成功的机器人操作数据训练,而是充分挖掘了训练过程中自然产生的失败数据的价值。模型分为负责高层规划的System 2和负责底层执行的System 1,System 2通过分析成功与失败数据学习判断行动可行性,提前避开容易失败的路径,再由System 1执行筛选后的可靠行动序列,最终让机器人在复杂操作任务中表现更稳健、成功率更高。

2025-12-08 21:30:17 930

原创 【论文自动阅读】PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention

现有机器人视觉-语言-动作(VLA)模型在执行抓取、放置等任务时,容易被无关物体干扰,导致动作冗余、轨迹不稳定、完成任务耗时久。为此,研究人员提出了PosA-VLA框架,通过“姿态条件锚定注意力”让机器人精准聚焦于任务目标(如要抓取的面包)和自身机械臂末端位置,同时用轻量架构和高效动作生成机制,在不依赖额外感知模块的前提下,提升了机器人动作的精准度、效率和泛化能力,能更好地适应复杂环境和时间敏感任务。

2025-12-08 17:46:42 562

原创 【论文自动阅读】STARE-VLA: Progressive Stage-Aware Reinforcement for Fine-Tuning Vision-Language-Action Mode

本文针对机器人操作任务中的视觉-语言-动作(VLA)模型,提出了一种分阶段的强化学习微调方案。核心是把复杂的长时动作轨迹拆分成“接近-抓取-移动-放置”这类有明确语义的阶段,给每个阶段设计专属的细化奖励信号,再结合离线偏好优化和在线交互学习,形成“模仿-偏好-交互”的三步微调流程,让机器人在模拟环境中的操作成功率大幅提升。

2025-12-08 17:29:17 468

原创 【论文自动阅读】PAI-Bench: A Comprehensive Benchmark For Physical AI

研究团队构建了一个名为“PAI-Bench”的综合基准测试体系,专门用来评估当前主流的视频生成模型(VGMs)和多模态大语言模型(MLLMs)在“物理AI”领域的能力——也就是模型对物理世界的感知(比如理解视频里的物理规则)和预测(比如生成符合物理规律的视频)能力。他们收集了2808个自动驾驶、机器人、工业场景等真实世界案例,分成“视频生成”“条件视频生成”“视频理解”三个赛道,用专门设计的指标去测试。结果发现,视频生成模型虽然能做出视觉上逼真的视频,却常违背物理规律;

2025-12-08 00:07:41 634

原创 【论文自动阅读】IGen: Scalable Data Generation for Robot Learning from Open-World Images

本文提出了一个叫IGen的框架,能把网上随处可见的普通图片(比如包含物品、场景的开放世界图片)转化为机器人能用来学习的“视觉-动作”训练数据。它不用人工标注,就能从单张图片生成大量逼真的场景画面和可靠的机器人动作指令,用这些合成数据训练出的机器人政策,在真实世界里执行抓取、放置、浇水等操作任务时,效果能媲美甚至超过用真实机器人数据训练的结果,解决了机器人训练数据收集难、成本高的问题。

2025-12-08 00:03:13 885

原创 【论文自动阅读】LACY: A Vision-Language Model-based Language-Action Cycle for Self-Improving Robotic Manipul

本文研发了一个叫“LACY”的机器人操控框架,解决了传统机器人模型“只会按语言指令做动作,不会解释动作”的问题。传统模型多是单向“语言→动作”(L2A),泛化性差且依赖大量人工标注数据;而LACY基于视觉-语言模型(LLaVA-NeXT),能同时实现“语言→动作”(按指令做动作)、“动作→语言”(用语言解释已做的动作),还能验证“原始指令和动作解释是否一致”(L2C)。

2025-12-03 18:34:59 753

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除