自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(96)
  • 收藏
  • 关注

原创 【论文阅读】Igniting VLMs toward the Embodied Space

手脑一体”的紧耦合:通过 Uni-CoT(统一跨层思维链) 和特定的 MoE 架构,将逻辑推理与物理执行强行统一在同一个数学框架内,覆盖从“语义到感知运动”的全任务谱系。(Differentiable):以当机械臂没抓准时,梯度会直接回流,告诉模型:“你刚才对‘杯子’这个词的空间定位(Grounding)有偏差”。在这一阶段,团队采取了极其谨慎的策略:冻结(Freeze) 整个视觉语言模型(VLM)的主体参数。这是 Uni-CoT 能够“落地”的关键。Uni-CoT 的核心在于它覆盖了。

2026-01-10 17:05:13 460

原创 【论文阅读】MOVE: A Simple Motion-Based Data Collection Paradigm for Spatial Generalization in Robotic Man

数据采集低效(静态限制):传统的数据采集方式是“静态”的,即一条轨迹对应一个固定的空间配置(物体和目标位置固定)。主要贡献:MOVE 是一种简单、有效且通用的数据采集范式,通过在演示中引入物体和相机的运动,解决了机器人模仿学习中严重的空间稀疏性问题。隐式增强:通过让物体在轨迹中“动起来”,单条轨迹就能覆盖密集的空间配置空间,从而在不增加轨迹数量的情况下,极大提高数据的空间信息密度。在 10 项任务中,MOVE 的平均成功率达到 39.1%,相比静态采集(22.2%)提升了 76.1%。

2026-01-09 18:27:21 791

原创 【论文阅读】Steering Your Diffusion Policy with Latent Space Reinforcement Learning

问题背景:虽然基于行为克隆(BC)的扩散策略(Diffusion Policy)在机器人领域表现出色,但当预训练模型性能不足时,通常需要昂贵的人工演示来改进。传统的强化学习(RL)虽然能自主改进,但在高维动作空间中样本效率极低,且容易破坏扩散模型学到的先验分布,甚至。架构:使用了基于 Soft Actor-Critic (SAC) 框架的结构,包含 Actor 网络(预测噪声位移)和 Critic 网络(评估状态-噪声对的价值)。(Latent Steering):将预训练好的扩散策略视为一个“黑盒”。

2026-01-06 19:33:35 1026

原创 【论文阅读】RoboReward: General-Purpose Vision-Language Reward Models for Robotics

其核心是通过一套负样本数据增强流水线(包括反事实重标记和时间裁剪),从现有的以成功案例为主的数据集中生成失败和“险些成功”的示例,从而训练出通用的 4B/8B 参数视觉语言奖励模型。反事实重标记(Counterfactual Relabeling):保持视频内容不变,但通过 LLM 生成与视频动作不符或仅部分符合的错误指令,并分配低分(例如:视频是“捡起碗”,指令被改为“捡起叉子”)。模型规模:训练了 40 亿(4B)和 80 亿(8B)参数的通用视觉语言奖励模型。

2026-01-06 14:02:00 969

原创 【论文阅读】Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

研究表明,通过结合高性能的遥操作硬件和能够处理高频、精确反馈的模仿学习算法,低成本机器人也能完成复杂的精细操作任务。:通过分块,原本需要几千步才能完成的任务,在模型的视角下变成了几十个“块”的衔接。时间集成(Temporal Ensembling):为了提高动作的平滑度,模型在每个时间步都会预测一个动作块,并对重叠部分的预测值进行加权平均。:当模型预测一个长达 100 步的动作序列时,这个序列内部可以自然地包含“先停顿 10 步,再快速移动 90 步”的信息。(样式变量),用于捕捉人类演示中的变异性。

2026-01-05 19:36:41 981

原创 【论文阅读】3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations

通过使用简单的点云表示和高效的编码器,使模型能够利用 3D 空间的几何信息,从而显著提高学习效率和泛化能力,实现在极少量演示(如 10 次)下完成复杂任务。编码器(DP3 Encoder):使用一个轻量级的三层 MLP,配合最大池化(Max-pooling)和 LayerNorm,将点云编码为仅 64 维的紧凑 3D 特征向量。在跨越 7 个领域的 72 个仿真任务中,DP3 在仅有 10 次演示的情况下,比传统的 2D 扩散策略实现了 24.2% 的相对提升。),将随机噪声转化为连贯的动作序列。

2026-01-02 12:09:16 903

原创 【方案了解】Helix: A Vision-Language-Action Model for Generalist Humanoid Control

[TOC]【方案了解】Helix: A Vision-Language-Action Model for Generalist Humanoid Control。

2026-01-02 00:27:36 493

原创 【论文阅读】VGGT: Visual Geometry Grounded Transformer

每张图像被切割成固定大小的补丁(Patches),并加上位置编码(Positional Encoding)和视角编码(View Encoding),以便让模型知道某个 Token 属于哪张图的哪个位置。骨干网络 (Transformer Backbone):采用类似于 ViT(Vision Transformer)的架构。这意味着模型在这一阶段就已经在隐式地进行“特征匹配”和“三角测量”了。输入编码 (Tokenization):模型接收。注:所有位姿预测均以第一张图为参考系。旋转误差:计算预测四元数。

2026-01-01 12:02:18 788

原创 【论文阅读】Vision Language Models are In-Context Value Learners

GVL 并不是在“训练”一个模型,而是在“引导”一个已经具备强大世界知识的模型(如 Gemini-1.5-Pro)。它通过打乱帧序这一巧妙手段,迫使模型放弃简单的时序推断,转而深入理解画面中的语义进度,而示例则是为这种深层理解提供了必要的“上下文参考”。

2025-12-29 11:15:24 823

原创 [WIP] 机器人领域的一些Key insights

2025-12-27 15:46:09 269

原创 【论文阅读】VLA-pilot:Towards Deploying VLA without Fine-Tuning

但是由于预训练数据和特定任务的分布不一致(比如预训练中是抓蓝色杯子,但是任务是抓红色杯子),导致抓取动作的概率很低。VLA提供动作分布和置信度,外部验证器利用多模态大模型(比如GPT-4V)对开放世界的理解能力,通过自然语言推理对任务和动作进行重新评估,使得正确动作的概率更高。策略引导是指的将模型输出的多种轨迹进行评估,从而选择最佳的轨迹。好处是:不需再SFT,通过初始的采样轨迹,剔除差的,保留好的,然后基于好的再进行扩散,如此迭代,最终选择打分最高的轨迹。其实预训练的模型是具备任务能力的,只是选不出来。

2025-12-09 21:46:01 1047

原创 【论文阅读】π∗ 0.6: a VLA That Learns From Experience

人类纠正机器的操作,机器不仅学习到正确的操作,还能通过value head判断之前哪里做的不好,导致了人类干预,从而避免再次出现该问题。注意:训练被分成了2个阶段,第一阶段训练value network,下一阶段训练policy network。,机器没做好的地方,人类给出打分,但是并没有干预其action。打分通过reward,使得机器意识到哪些动作是不好的,从而进行纠正。,针对机器探索到的分布外场景,人类进行干预,得到新的数据集。pi*0.6只用了强化学习,没有使用模仿学习吗?

2025-11-28 18:24:58 960

原创 【论文阅读】X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

将NLP领域的Soft Prompt Learning思想借鉴到机器人中,虽然不是架构创新(比如Transformer),但是能够以高效的方式解决机器人领域最关注的。因为针对目前已经训练好的大模型,需要使其适配到不同的垂类场景中。如果采用普通微调的方式,会针对所有参数进行调整,cost很大,而且分布变了之后可能会造成。因此提出了软提示学习的方式,在部署垂类应用时,只需要在本地存储很少量的soft prompt即可。X-VLA 将这一思想迁移到具身智能体领域,把“任务类型”换成了“机器人身份”,同样奏效。

2025-11-17 00:06:10 371

原创 【论文阅读】PhotoBot: Reference-Guided Interactive Photography via Natural Language

PhotoBot 通过“语言理解 + 参考图像推荐 + 语义对齐 + 相机控制”的闭环,实现了能听懂你想要什么、给你建议、然后帮你拍出来的智能机器人摄影师。

2025-11-11 19:09:17 448

原创 【论文阅读】π0 : A Vision-Language-Action Flow Model for General Robot Control

从标准正态分布线性去噪。预训练的目标是构建一个基础模型(base model),目标是广泛的泛化性(broad capabilities and generalization)。cache的原理:cache的是经过了线性变换(k = Wk, v = Wv)后的keys and values,节约的也是线性变换的时间。高质量数据的作用是效率和鲁棒,低质量数据的作用是让模型能够从错误中恢复(recover from mistakes)。预训练模型采用PaliGemma,是一个3B的VLM模型。

2025-10-15 17:41:17 916

原创 【调研】视觉-语言 导航 VLN

视觉-语言导航(Vision-and-Language Navigation, VLN)是具身智能(Embodied AI)领域中的一个核心且极具挑战性的研究方向。其核心任务是:开发一个能够理解自然语言指令的智能体(Agent),并利用其视觉感知能力,在复杂的、未曾见过的三维环境中导航至指定目标位置 (Result 1-1, 1-4)。

2025-09-16 17:05:13 1023

原创 自动驾驶感知范式迁移:从BEV/向量化到高斯建模

本质: 这个过程就像一个艺术家在用无数个可塑形的、可变色的“智能粘土球”(高斯体)来雕刻一个与现实一模一样的模型。核心思想: 不再试图填充一个完整的网格,而是使用一组可学习的、稀疏的“查询向量”(Object Queries)作为“探针”,主动去图像中寻找并“提炼”与特定物体相关的信息。本质: 这是一种更有针对性的提炼。最终得到的是一组包含了物体信息的向量,而不是一个完整的场景地图。核心思想: 不去抽象信息,而是尝试用一组带有丰富属性的、可微的、显式的3D基元(即3D高斯体)去直接模拟和重建整个三维世界。

2025-08-29 11:34:21 965

原创 自动驾驶导航信号使用方式调研

本文调研在给定导航信号后,如何在端到端架构下,利用导航信息引导轨迹生成。目前主流的方案可以分为2种。一种是将导航作为“前置引导”深度融入轨迹生成过程(导航前置型);另一种则是将导航作为“后置评价”标准来筛选最优轨迹(导航后置型)。

2025-08-20 20:30:40 1130

原创 【论文阅读】AMP: Adversarial Motion Priors for Stylized Physics-Based Character Control

之前的方法是在某场景下,从动作库中选出一条动作流(select the appropriate motion for the character),然后设计跟随目标函数(carefully designed objective functions),让动画人物进行跟随。在计算机动画领域(注意:该论文并非典型的具身智能领域),如何让动画人物的动作更拟人(life-like)一直是很关键的问题。RL奖励函数是什么?

2025-07-23 11:21:17 1124

原创 【论文精读】GR00T N1: An open foundation model for generalist humanoid robots

由于本体的配置差异很大,比如传感器配置,硬件形态(夹爪,灵巧手),运动学模型(双足/四足),而且数据缺乏统一的标准,导致不同本体的数据难以整合和复用。:大语言模型,多模态大模型领域均有基座模型。比如大语言模型的GPT-3/4,多模态大模型的CLIP。是具备多任务能力的大模型,通常可以few-shot甚至zero-shot到未见过的任务上。是在训练阶段中,预训练的产物。一般需要进行微调才能适配下游任务。比如Bert-base,需要微调后才能用于情感分析等任务。

2025-07-04 14:30:04 1243

原创 机器人行业之我看

传统方案依赖精确的动力学模型和复杂的控制理论(如MPC),在特定环境中是成功的(如自动驾驶),但是现实世界过于复杂和不确定,导致该方法鲁棒性不足。小脑的训练数据目前相当匮乏,对于物理世界的理解仍不充分。举例:别人向我扔飞盘,大脑输出“接住它”的指令,小脑输出手脚的协同控制指令,用什么力度,在什么位置接住等。比如,特斯拉Optimus的数据量大约在百万小时级别,能够让Optimus在工厂工作。大脑:处理语言和视觉信息,理解环境和指令,给出高级决策。小脑:基于大脑的高级决策,生成具体的控制指令。

2025-06-27 11:25:12 1021

原创 【论文精读】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion

在具身智能领域,从专家示范中进行策略学习较难。

2025-06-23 16:25:38 1134

原创 【论文精读】BeamDojo: Learning Agile Humanoid Locomotion on Sparse Footholds

传统基于优化的方法非常消耗算力 a significant computational burden for online planning。相比之下,现在有四足机器人在这方面有很多研究,但是他们将足建模为点。对于双足机器人来说,足需要建模为多边形polygon。网页链接:https://why618188.github.io/beamdojo。双足机器人在非平坦路面的行走很有挑战性,因为要求行走到安全的区域,并且保持稳定。团队:上海AI lab,上海交通大学,浙江大学等。

2025-06-11 14:39:11 906

原创 【论文精读】RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

已知:目前VLM在VQA,推理等方面有强大的能力,可以给出机器人的高阶指令high-level commands,需要各种controller去给出指令,无法VLM自己给出直接用于控制的低阶指令Cartesian end-effector commands。问题:想要机器人能够获得足够强大的能力,暴力的方法就是采集足够大量的数据 millions of robot interaction trials,但是从成本角度考虑并不现实。针对机器人动作数据,限制给出的词表范围,防止输出不可执行的指令。

2025-06-08 01:02:31 1178

原创 【论文精读】Improving Behavious with RL fine-tuning for Autonomous driving

RL过程能够显著提升可靠性significantly improves the reliability of the agent behavious。目前LLM采用的范式“先大规模预训练,再强化学习微调”被借鉴到这篇文章中了。采用Waymomer框架。

2025-03-31 21:52:56 1351

原创 【论文精读】Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

这个预训练跟deepseek r1一样,都是让模型先学一些简单的专家分布,作为强化学习的冷启动,否则直接用强化学习,探索到专家分布的难度太大。但是上述误差是只有达到一定阈值时才算,没有达到阈值时就没有,所以是稀疏的。由于上述奖励过于稀疏,因此需要一些辅助奖励。模仿学习存在的问题已经越来越被广泛认识到。目前强化学习也存在问题。

2025-03-04 16:19:27 998

原创 强化学习入门

去掉Value model(Critic model),无需额外的价值函数。

2025-02-20 19:51:24 556

原创 MoE演变过程

因为有些信息是通识的,所以建立Shared Expert共享专家,这些专家是每个token都要过的,然后其他专业领域的专家由router进行选择,然后再加权求和。SparseMoE选择topk个专家(没有激活全部专家,所以叫sparse),然后各专家的输出进行加权求和。这个模型是由Switch Transformer论文中提出来的,其预训练速度是密集模型的7倍。用router给出各专家的权重,然后让输入过每一个专家,然后做加权求和。

2025-02-17 20:36:57 485

原创 大语言模型入门

找到常出现的编码对,比如(125 67),就把它合成为一个新编码符号(比如301),然后再看有没有新的编码对,比如(301 786),那就再把这个合成新的。一种用于大模型的策略优化算法,通过分组比较,动态调整学习策略,使训练更高效和稳定。因为输入的是对话,所以需要对对话进行处理,增加虚拟独白部分,分别在最前和最后,而且要指明是user还是assistant。给模型输入一段没见过的东西,它会沿着继续预测下去,本质上是在概率性的前提下进行最佳预测。如果给base输入一句话,它不会回答,只会续写。

2025-02-13 22:19:48 1692

原创 【论文精读】Taming Transformers for High-Resolution Image Synthesis

CNN具有归纳偏置(https://zhuanlan.zhihu.com/p/537658409),主要是局部性和平移不变性,在这2个先验信息前提下,CNN学习速度更快,因此在小样本的图片处理任务中优于Transformer。这篇论文就是将CNN和Transformer结合起来,将CNN的归纳偏置的性能和Transformer的表达能力相结合,用于高清的图片生成。然后用Transformer建模连续多张图片的index,并推理下一张的index,然后进行解码即可。

2025-02-05 22:17:32 670

原创 【论文精读】MotionLM:Waymo新作

该文章的一个主要创新点是把每一个时刻的位移认为是vocabulary运动序列的一个运动token(motion token)。采用teacher-force的方法,每个回归出来的点都是加在上一时刻的真值上,得到这个时刻的输出,模型收敛更快。简介:采用自回归的方式做轨迹生成,能够更好地建模交互,且避免模态坍缩,在数据集达到了SOTA。给定context,模型输出13x13的分类分布,然后采样得到x和y方向的action。该模型并不是直接输出轨迹,而是输出分类结果,从而滚动重建轨迹。kmeans聚类成6条。

2025-01-14 15:19:12 727

原创 【论文精读】Sparse4D v2: Recurrent Temporal Fusion with Sparse Model

团队:地平线时间:代码:简介:PETR是query-based方法,但是为了实现特征融合,进行了全局注意力机制,导致高计算量。image通过backbone和FPN,得到多尺度特征,略。这一层是为了提取这一帧新出现的障碍物。根据SparseDrive在附录的信息,初始化900组特征和anchor,然后选出打分最高的300组highest confidence instances给到multi-frame layers。这一层拿到sigle frame layer输出的300组障碍物信息,然后再从mem

2024-07-25 11:07:21 990 1

原创 【论文精读】Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion

这一篇论文里详细讲解了deformable aggregation,在后续的sparsedrive中也用到了这个模块。sparsedrive的思想和本文基本一致。

2024-07-24 15:06:43 793

原创 【论文精读】Fully Sparse 3D Occupancy Prediction

团队:南京大学,上海人工智能实验室时间:2023年12月代码:https://github.com/MCG-NJU/SparseOcc。

2024-07-22 19:48:28 1515 2

原创 自动驾驶目标检测常见Metrics

简述:A平均是指在不同recall的平均,m平均是指在不同class的平均。

2024-07-18 20:16:18 892

原创 【论文精读】SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation

团队:清华大学,地平线投稿会议:暂时未知,挂在rxiv代码链接:https://github.com/swc-17/SparseDrive开环测试数据集:nuScenes。

2024-07-17 18:33:40 2550 4

原创 【论文精读】Exploring the Causality of End-to-End Autonomous Driving

团队:百度代码:https://github.com/bdvisl/DriveInsight论文思想简述:这篇论文并不是提出SOTA模型,而是提出了一些的方法。

2024-07-11 14:51:44 977 3

原创 自动驾驶论文总结

如何理解agent centric。

2024-07-10 15:04:06 504

原创 深度学习进阶

TransformerMHA的好处:Multi head attention能够让模型关注到不同的信息,增强表达能力,提高模型性能;时间复杂度是O(N2),因为每个词都需要和其他所有词进行Attention操作,所以是N2。CNN卷积核权值共享,因此具有平移不变性,减少参数量为什么基本不用大卷积核了?(1)大卷积核参数量更大;(2)计算更复杂;(3)可以用多个小卷积核进行平替,且非线性效果好。激活函数sigmoid经常用于分类场景,作为概率输出relu经常作为隐藏层激活函数

2024-07-10 13:40:58 424

原创 torch_scatter::scatter_max 转onnx再转tensorrt踩坑记录

方法选择。

2024-06-27 14:02:08 1221

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除