- 博客(135)
- 收藏
- 关注
原创 小白都能看懂的openpi-so101部署
尝试lerobot官方0.3.3版本的未果,bug较多,而且就算最后能够成功,效果也不尽人意(社区普遍反映),所以来尝试看一下怎么部署。本博客研究pi0和pi05的微调,so101实机部署流程和代码。2025.11.20 发现lerobot官方提供了lerobot0.4.0 和 lerobot 0.4.1,对pi0和pi0.5都做了支持,应该能顺利部署。
2025-11-27 10:08:11
374
原创 用GR00T官方仓库在so101上部署GR00T N1.5
选用之前在box2bowl上微调好的模型,看看能不能成功;失败这就很奇怪了,明明我在之前运行的好好的,怎么参数还能出问题。然后怎么部署呢?卡住了。发现官方有脚本:getting_started/examples/eval_gr00t_so100.py发现当前环境中没有lerobot包,与是:(别学我,这是错的)发现他覆盖安装了很多环境,这些环境会导致serve的服务打不起来。
2025-09-29 09:53:45
869
原创 微调VLA需要的数据数量,质量,构成分析
1-2:GR-3技术报告,GR-3用的是联合训练微调,使用了机器人轨迹和VL数据,效果比 pi0综合高了10%4:Gemini robotics技术报告,打包饭盒一般超过2min,很长程的任务,平均3500条的话也得116个小时。它在持续超过 2 分钟的长流程饭盒打包任务中取得了100% 的成功率(毕竟是技术报告)。100条(1hour)成功率就能超过70%成功率。5. 末端为灵巧手,非抓取扩展也用了1029次人类示范6-7:微调GR00T,基本300条才能到50%左右。
2025-09-03 22:06:29
738
原创 用开源phospho-app训练VLA并部署VLA
我个人用下来的体验非常不错,封装了很多lerobot本身的功能作为可视化接口,上手简单,而且这个app经常更新。
2025-08-27 10:24:05
1408
原创 Lerobot-SO101-安装/数据收集/训练policy
一个有用的功能是重放功能,它允许你重放任何已录制的回合,或者来自任何数据集的回合。接下来的步骤是训练您的神经网络。通过稳定的抓取表现后,您可以开始在数据采集时引入更多变化,例如额外的抓取位置、不同的抓取技术和改变相机位置。重要的是,这个策略将自动适应你机器人(例如笔记本电脑和手机)的电机状态、动作和相机的数量,这些信息已保存在你的数据集中。这是可选的,但如果你使用它,确保先登录,使用命令。一旦你收集到足够的轨迹数据,你将训练一个神经网络来模仿这些轨迹,并部署训练好的模型,使你的机器人能够自主执行任务。
2025-07-28 15:27:34
1918
原创 具身智能大模型年度技术总结
最近参与了优快云官方的活动:博客之星2025年度总评选。借此机会总结一下本人从2025年5月到2025年12月底期间学习具身智能大模型的历程,总结一下这半年多相关领域的技术工具以及优快云平台的使用心得等等。
2025-12-28 15:19:59
676
原创 VLA中人类数据迁移到机器人后的涌现 -- physical intelligence -- 2025.12.16
视觉-语言-动作(VLA)模型能够实现广泛的开放世界泛化,但需要大规模且多样化的数据集。一个吸引人的想法是:其中一部分数据是否可以来自人类视频——这些视频覆盖多样的真实场景且易于获取。人类知识为在机器人中灌输物理智能提供了基础。这可以以多种形式体现:从通过视觉-语言模型用人类生成的文本与图像为机器人策略提供初始(bootstrapping),到通过机器人远程操作(teleoperation)模仿人类生成的动作。尽管这些技术能间接把人类经验灌入模型,但直接从人类经验中学习。
2025-12-26 09:41:35
687
原创 π*0.6: 从实践中学习 -- 2025.11.17 -- Physical Intelligence (π) -- 未开源
pi0 和 pi0.5 作为轰动具身智能领域的VLA引世人瞩目,2025.11.17 Physical Intelligence (π)发布了pi*0.6,一经发出,就在社区中引起了广泛关注,VLA+RL 的研究方向也越来越火热,故来拜读一下。注意π0.6∗π_{0.6}^*π0.6∗和pi0.6不能等价。论文页项目页。
2025-11-29 21:50:24
1439
原创 dexbotic -- 技术报告-- 2025.10.20 -- 开源VLA工具箱
最近,随着 Vision-Language-Action(VLA)模型的发展,在具身智能(embodied intelligence)领域取得了显著进展。然而,该领域的研究分散在不同机构间,各自使用不同的深度学习框架和模型架构。这种多样性给用户在比较不同 policy(策略)时带来挑战:他们需要配置多个实验环境和不同的数据格式,使得 VLA 开发流程变得繁琐。另外,确保每个被比较的 policy 都被充分优化也很困难,这会导致不公平的对比。
2025-11-27 10:09:22
749
原创 VLA-0 -- Nvidia --2025.10.15 -- 开源
在大规模语言模型(LLMs)在文本处理方面取得成功、以及视觉-语言模型(VLMs)在同时处理视觉与文本输入方面表现良好之后,下一步是探索视觉-语言-动作模型(VLAs),即不仅理解视觉和文本信息,而且还能为机器人 agent 预测动作的系统。视觉-语言-动作模型(VLAs)在实现通用型机器人操控方面具有巨大的潜力。然而,构建这类模型的最佳方法仍是一个悬而未决的问题。目前的方法通常会增加复杂性,例如通过添加 action tokens(动作 token)来修改现有视觉-语言模型(VLM)的词汇,或。
2025-11-13 09:30:12
595
2
原创 Gemini Robotics 1.5 -- Gemini Robotics Team -- 技术报告 --- 2025.9.25
虽然是技术报告,但是谷歌的工作还是值得一看的。技术报告页今年早些时候,在将Gemini 的多模态理解能力带入物理世界方面取得了重大进展,起点是 Gemini Robotics 这一系列模型。今天,又向推进智能且真正通用的机器人迈出了一步。Gemini Robotics 1.5 —— 谷歌最强的视觉-语言-动作(VLA)模型:把视觉信息和指令转化为机器人执行任务的运动指令。该模型在行动前会先“思考”并展示其思路流程,从而帮助机器人以更透明的方式评估并完成复杂任务。
2025-10-31 10:02:26
1106
原创 Robotic Manipulation VLA 综述
机器人操纵作为机器人学与具身人工智能的重要前沿,要求精确的运动控制以及在动态环境中对视觉与语义线索的整合性理解。机器人操控在许多领域具有广泛应用价值,包括先进制造、智能物流、精密医疗和多功能家务服务等。传统方法基于预先定义的任务规格与刚性的控制策略,这些方法在非结构化的真实环境中会明显失效——尤其面对新物体、含糊的自然语言指令或未见过的场景布局时——从而暴露出其在可扩展性与泛化能力上的固有局限。
2025-10-24 10:29:50
957
原创 调研遥操作方案并进行优劣势对比
1. 能够轻松应用于自研与非自研机械臂,易用好用2. 在真实环境中和仿真场景中都可以使用3. 成本4. 有无现有的社区经验,降低学习成本5. 是否方便进行数据收集,比如收集数据时我们能看到只有模型能够接收到的视角,如果是上帝视角收集的数据,效果需要测试(我现在在box2bowl上有上帝视角记录的50条数据,后续可以测试只看双摄记录数据的效果),但是打开摄像头就会占用大量带宽6. 扩展性。
2025-10-20 18:47:20
561
原创 Genie Envisioner--智元机器人--世界模型框架--2025.8.7
能在物理世界中感知、推理并行动的具身代理,是人工智能系统的下一个前沿方向。核心的基础性研究挑战仍是:开发可扩展且鲁棒的机器人操控能力——即通过有选择的接触有目的地与物理环境交互并控制它。尽管该领域已取得大量进展——从分析方法(Berenson 等,2009;Stilman,2007)、基于模型的框架(Ebert 等,2018;Janner 等,2019;Nagabandi 等,2020),到从大规模数据集中学习操控策略的数据驱动方法(Black 等,2024;Brohan 等,2023;
2025-10-20 10:47:24
1169
原创 RynnVLA-001-7B: 使用人类演示增强机器人Manipulation--达摩院--2025.9.18--开源
过去几年里,大规模语言模型(……)、大规模多模态模型(……)、基于视觉的识别模型(……)以及生成模型(……)都取得了快速进展。这些领域的成功主要归功于大规模数据集的可用性。例如,大型语言模型受益于来自网络来源的充足训练数据,这些数据相对容易获取。相比之下,Vision-Language-Action(VLA)模型的发展受制于大规模机器人操作数据的稀缺。收集这类数据通常依赖人工遥操物理机器人来记录操作轨迹,因此构建大规模数据集既费时又昂贵。为应对数据稀缺问题,已有一些早期尝试。一方面,有些方法提出构建。
2025-10-10 19:11:47
1046
原创 EO-Robotics --上海AI lab -- 2025.9.9 -- 开源
近期的 vision-language-action(VLA)模型通过在大规模机器人数据与视觉-文本数据上联合训练,已经在通用机器人控制方面展示了显著进展。然而,它们在交错进行的推理与交互中,仍未达到人类水平的灵活性。早期的通用机器人策略主要把 vision–language models(VLMs)扩展为 vision-language-action(VLA)模型,借助领域特定的机器人数据;方法上要么通过对离散 action tokens的decoding 来生成动作,要么加入额外的连续。
2025-10-10 09:28:18
915
原创 Diffusion 模型解读
首先是前向扩散过程,一张原始图片经过T次加噪,得到一张杂乱无章的噪声图,原始论文加了2000次是否有一种反向过程,能够把噪声图逐步去噪还原回图像。什么是加噪?每次加一个01分布的高斯噪声对于反向过程其实就是训练出一个神经网络,它可以预测出噪声,然后xtx_txt时间步的信息减去模型预测出的噪声,就得到xt−1x_{t-1}xt−1时间步的图片,这就是去噪的一个过程。训练阶段。
2025-09-22 20:46:54
694
原创 lerobot0.3.3--smolvla--so101部署--代码debug
已经在smolvla上进行了相关实验并跑通,现在来看一下lerobot的repo是怎么实现smolVLA对SO101的控制的微调就不说了,没啥好说的,和其他的都差不多。
2025-09-22 10:08:27
1116
原创 WALL-OSS--自变量机器人--2025.9.8--开源
作者的紧耦合 MoE 架构、用以增强 VLM 具身理解的多模态课程化训练,以及多阶段训练计划,共同构成了一条统一的、灵活的、可微分的端到端映射路径:从高层指令——通过 CoT(Chain-of-Thought)与子任务分解——到离散动作,再到连续动作。另外,一些方法(如 3D-VLA(79)与 PointVLA(41))尝试使用 3D 视觉模态作为 2D 视觉与动作之间的桥梁,但 3D 数据同样难以获取,且现有的 3D 视觉基础模型(如 VGGT(69)和 π3(72))在精细动作预测所需的精度上仍不够。
2025-09-17 22:14:28
1280
原创 Galaxea 开源数据集和双系统G0--星海图--2025.8.30--2025年9月陆续开源
VLA 模型已成为关键范式,目标是使机器人能够自主地感知、推理并在物理世界中执行复杂任务。尽管已取得显著进展,但由于缺乏大规模、高质量、开源的真实世界机器人数据,仍然存在显著瓶颈。现有数据集(例如 Open-X Embodiment)主要受到任务现实性受限与环境丰富度不足的制约。这些不足会削弱训练模型在多样真实世界情境下的泛化能力。为应对该挑战,提出了 Galaxea Open-World 数据集——一个面向移动操控的、规模大且精心策划的真实世界开源数据集。
2025-09-17 10:05:59
1425
2
原创 CLIP、DALL·E 1的解读
这东西是干什么的呢?这个都是有论文的,但是我们看技术博客就可以。既然我们在上面能够构建图片和文字之间的关系,那能不能通过文字反向生成图片呢?想写什么东西都可以,把文本做一个编码,根据这个编码生成图片首先得熟悉下VQGAN,它相当于生成器,CLIP相当于判断器(看生成结果与描述是否相同)。图像如何表示,NLP中我们对文本向量化,我们能否对图像离散向量化?怎么做离散化呢?通过codebook,首先特征这个东西肯定是连续的一些值,组合在一起的,那就得把特征离散化再整合。
2025-09-11 21:42:43
714
原创 RynnVLA-001--达摩院--开源--2025.8.11--介绍与源码剖析
得益于大规模数据集的可用性,近几年语言模型、多模态模型、基于视觉的感知模型以及生成模型取得了快速进展。相比之下,机器人模型的发展仍然受限于大规模机器人操控数据采集的高人工成本,因此进展相对有限。在本工作中,尝试通过利用生成先验来缓解这一挑战。RynnVLA-001,一种基于大规模视频生成预训练的视觉—语言—动作(VLA)模型,建立在预训练视频生成模型之上。。RynnVLA-001 在约1,200 万条第一人称视角的操控视频上进行了预训练。将下一帧预测与下一动作预测。
2025-09-11 10:04:51
804
原创 RoboTwin2.0--CVPR2025--港大--2025.6.22--开源
为基础,使得能在广泛的物体类别和操作场景上可扩展地实例化任务。为了保证高质量的专家演示,将该自动化生成流程与 RoboTwin 2.0 的全面域。
2025-09-08 10:10:52
836
原创 SmolVLA_0.5B--开源--HuggingFace--2025.6.2
(剪刀图标表示)。剩余的层将三类输入编码为 embeddings:(i) 语言指令,(ii) RGB 图像(或多帧),和 (iii) 机器人传感器-运动状态(sensorimotor state)。将这些合并的 tokens 输入到一个 Action Expert,该模块由交替的 cross-attention(交叉注意力,金色) 和 self-attention(自注意力,浅黄色) 模块组成。该模块使用。
2025-09-03 15:12:58
1131
原创 RoboTwin--CVPR2025--港大--2025.4.17--开源
的任务变体,从而限制了它们对新场景的泛化能力。现有基准的另一个局限是,它们主要集中于。
2025-08-22 22:09:49
1289
原创 8. 写一个自己的shell
因此只要不为 NULL,while 条件就为真,继续循环;一旦 strtok 返回 NULL,赋给 _argv[i] 后,条件为假,循环结束。当我们输入命令:abcd,然后一敲回车,就会变成abcd\n,最终就是abcd\n\0,strelen(abcd\n)=5,所以。至此我们的shell就可以跑起来了,可以输入命令,然后执行等等。最后的结论:当我们进行登陆时,系统就是要启动一个shell进程,shell本身的环境变量表是从哪里来的?str是要分割的字符串,delim是分隔符,默认为空格,当。
2025-08-22 10:46:03
643
原创 5. Dataloader 自定义数据集制作
random shuffle 做一个随机打乱,一个一个 batch 从 queue 中取数据,这里需要能够快速的把数据打包好给训练器。Dataloader 就是 pytorch 提供的一种的方法。
2025-08-19 09:58:06
455
原创 4. 图像识别模型与训练策略
本文介绍了图像分类任务的关键训练策略。首先讨论数据预处理:针对小样本数据(6000张/100类),采用内存中的数据增强技术(随机旋转、裁剪、翻转等)提高数据利用率,并统一resize尺寸以加速计算。其次重点讲解迁移学习:使用预训练模型(如ResNet),根据数据量决定冻结层数(小数据仅微调输出层),并详细说明如何修改模型输出层结构。训练过程采用交叉熵损失和带衰减的学习率优化器,通过验证集监控保存最佳模型。实验表明,解冻全部参数进行微调比仅训练输出层效果更优。最后展示了测试时的数据预处理和结果可视化方法,强调
2025-08-15 10:13:53
1090
原创 VLA-OS(VLA操作系统)--新国立--2025.6.21--开源
最近具体的VLA模型已经部署成功了,在尝试看更多的优化、实际应用方面的论文,了解到这篇效果还不错,故来看看有什么巧思。
2025-08-12 10:09:06
1019
原创 14. isaacsim4.2教程-April Tags/给相机加噪声
在传感器中有几种方式来定义增强(augmentation)。增强可以通过不同的方式实现,常见的有:C++ OmniGraph 节点Python OmniGraph 节点omni.warp核心numpy核心接下来,我们用numpy和omni.warp核心来定义一个简单的噪声函数。为了简化,这里没有做颜色值的越界检查。我们使用来定义一个图像增强操作。在这个例子中,我们增强的是图像的输出,将注释器的结果(将 RGBA 转换为 RGB)与噪声增强结合起来。# 获取 RGB 数据的渲染变量名。
2025-08-08 10:13:53
1369
原创 NVIDIA Isaac GR00T N1.5 源码剖析与复现
代码页项目页模型页假设用户已经收集了机器人演示数据集,数据格式为(视频、状态、动作)三元组。用户需要首先将演示数据转换为 LeRobot 兼容的数据格式(更多信息请参见 getting_started/LeRobot_compatible_data_schema.md, 该格式与上游的兼容。我们的代码库提供了针对不同机器人形态的训练配置示例。我们的代码库提供了便捷的脚本,用于在用户数据上微调预训练的 GR00T N1.5 模型,以及运行推理。
2025-08-06 21:16:24
1942
原创 13. isaacsim4.2教程-机械臂关节控制
Omniverse Isaac Sim 中的 Python 环境内置了基于 ROS Noetic 的 ROS 环境,其中包含rospy。这使得大多数核心 ROS 包和消息都可以使用,同时也支持发布和接收自定义消息。学习目标在独立 Python 脚本中发布和接收 ROS 消息。使用包含接触传感器信息的自定义 ROS 消息。在扩展脚本中发布 ROS 消息。在这个示例中,我们将使用来自接触传感器的数据来演示如何发布自定义 ROS 消息。
2025-08-06 09:50:03
1922
7
原创 OpenVLA复现
为什么在看过那么多声称更先进的VLA,效果更好的VLA后,还要翻过头来尝试复现一下OpenVLA,首先因为OpenVLA的工作确实带来了相当大的影响,而且为后面的很多VLA都奠定了一定的基础;其次就是后续的很多VLA都会尝试去对比OpenVLA的效果;最后就是他的复现结果多一点,社区经验较为丰富,方便我这种初学者进行学习,没有太多其他复杂功能,整体思路比较明确。最重要的可能还是学习吧,学习整个一套的流程,包括怎么微调以适应采摘任务,然后尝试使用openvla来应用于自己的特定任务上。
2025-08-02 19:37:21
1952
8
原创 GR-3(4B) 技术报告--2025.7.23--字节跳动 Seed
在本报告中,字节汇报了在构建通用机器人策略方面的最新进展,即开发了 GR-3。GR-3 是一个大规模的视觉 - 语言 - 动作(VLA)模型,如图1所示。它对新物体、新环境以及含抽象概念的新指令展现出较好的泛化能力。此外,GR-3支持少量人类轨迹数据的高效微调,可快速且经济地适应新任务。GR-3 在处理长周期和灵巧性任务(包括需要双手操作和底盘移动的任务)上也展现出稳健且可靠的性能。这些能力源自—种多样的训练方法。
2025-07-31 21:20:19
1257
原创 NVIDIA AI 机器人技术专场—GR00T N1.5实践: 结合光轮智能仿真云平台赋能 LeRobot
建立关节映射,直接关节控制策略,如果没有真实机械臂,需要通过末端解算机械臂关节位姿。提供了脚本将数据转换成lerobot,并通过lerobot的数据查看功能回放数据。能遥操完了之后就可以与lerobot和N1.5结合了,leisaac。lerobot官方不支持isaacsim,这个工作打破了gap。cosmos是一系列模型组合,类似于世界模型?训练24gb,推理8gb,88%以上成功率。GR00T用到了很多cosmos的数据,GR00T-Mimic也是数据增强的。仿真--isaacsim。
2025-07-31 09:58:35
282
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅