持续学习的程序员+1-优快云博客

原创 RLinf强化学习框架试用

原文发表在知乎，辛苦移步：《最近一直在看强化学习算法，跑起来的demo模型都很小，（例如：《具身智能hil-serl强化学习算法在lerobot机械臂上复现》）所以可以在单机上很容易跑起来。但针对具身智能的VLA模型，可能动辙就是几个B的参数量，如果只是模仿学习的话，也有很多分布式训练框架，例如deepspeed, fsdp等可很方便的引入，这样多卡/多机训练也很简单。

2025-12-24 02:20:06 720

3.1，通过时序差分(TD)的思想去训练一个critic网络，并且先通过数据离线进行训练，这点和pi0.6中的思路是一样的。有些细节不同之处是：pi0.6是训练了一个V函数，而gr-rl训练了一个Q函数，另外gr-rl训练的Q函数输出是一个分布，而不是传统强化学习中的一个值，论文中说分布更加鲁棒。最近学习了字节跳动gr-1/gr-2/gr-3/gr-rl（关于gr-rl：文档1和文档2）系列工作，再结合以前看的pi系列模型或算法，产生了一些想法，想法可能不成熟甚至有错误，仅在此记录总结一下，以便回顾。

2025-12-15 19:13:12 673

原创强化学习阶段性总结

而在强化学习里面，监督信号来源于反馈，是一种间接的信号，例如在机械臂上，监督信号来源于环境的反馈：机械臂有没有成功的抓起物体，有没有成功的将物体推到目标区域…另一方面，更加有针对性，这个地方容易出错，那就在出错的地方反复学习纠错。PPO+LLM场景：《图解大模型RLHF系列之：人人都能看懂的PPO原理与源码解读_图解大模型rlhf系列之:人人都能看懂的ppo原理与源码解读-优快云博客》和《强化学习ppo算法在大语言模型上跑通》中有PPO算法在LLM强化学习场景的应用，这两篇文章讲得是一个案例。

2025-12-07 22:04:41 910

原创 π RL(piRL)算法支持用强化学习方法训练π 0/π 0.5(pi0/pi0.5)

最近看到清华大学发了一篇文章，解决了在强化学习方法下难以去训练pi0/pi0.5这种用flow matching生成动作的VLA模型的问题，效果看起来还不错。关于piRL的介绍可以参考：《清华大学最新！πRL：用在线强化学习让机器人 “边学边做” 的通用方案》。piRL笔者最近几天详细的研究了下，笔记如下。先说一下核心点吧，对强化学习，特别是PPO算法，不熟悉的同学，可以先去看一下强化学习方面的知识。

2025-12-06 16:04:38 745

原创具身智能hil-serl强化学习算法在lerobot机械臂上复现

原始文章发表在知乎，辛苦移步～最近把hil-serl在lerobot机械臂上跑了一下，网上也没找到其他同学的成功的复现分享，所以笔者一路过关斩将解决问题，在此记录一下，希望对大家也能有所帮助。hil-serl是2024年底的一篇文章，作者罗剑岚目前是智元的首席科学家。整体来看，其实hil-serl的思想挺简单的：传统在在线强化学习采样过程可能是算法驱动的，例如随机探索，这样效率比较低，训练时长会较长。

2025-11-28 13:49:51 879

原创具身智能π0.5(pi0.5)模型在lerobot机械臂上复现

最近几天将pi0.5模型训练并在物理lerobot机械臂上跑了一下，过程如下：采数据命令：}’

2025-10-26 18:11:44 733

原创具身智能π0.5(pi0.5)模型介绍

看到pi0.5后，第一个会想到的是，它与pi0（π0模型前向推理过程详解，　π 0模型数据-训练-评测过程）相比的升级点在哪里。它有一个state_proj层，用于将状态向量投影到模型的嵌入空间中，与50维action chunk拼在一起，形成一个51维的embedding，然后在action expert中使用。大概半年前学习过pi0与pi0.5模型，那时候pi0.5还没有开源，现在pi0.5开源了(2025.9月)，先研究了一下它的代码，笔记如下。pi0与pi0.5在模型结构上的区别。

2025-10-26 18:10:33 1155

原创 gemini cli试用体验

目前我在申请google账户的过程中，需要使用手机号收验证码，可惜的是，大陆的手机不能用（至少我试的两个手机都不可以，系统会提示不能用）。但好在我找到了以前用过的一个google账户，然后把它恢复了，然后就可以正常使用了。另外，也行你会遇到一个关于需要设置一个名为：GOOGLE_CLOUD_PROJECT的环境变量的问题，此时注意需要在google的相关平台上申请一个项目名称，这个不能随便填，申请项目名称的网址我也忘记怎么跳过去的，反正大家在错误提示的链接中点一点应该可以容易找到如何申请项目。

2025-10-26 18:09:22 248

原创 deepseek中的MLA与MoE技术解析

本文已经发表在知乎，辛苦移步～《最近详细的学习了一下deepseek中一些独特的技术，例如MLA和MoE，记录笔记如下。MLA（Multiple Latent Attention）是对传统的多头注意力(MHA)的改进，主要解决了大模型推理过程中kv cache占用显存过多的问题，核心解决路径是降低缓存的kv cache的维度，例如以前要缓存的每个向量的维度是2048，改进后只缓存256，这样就减少为以前的1/8，然后在推理过程中再从256还原到2048，相当于用时间换了空间。

2025-09-23 14:16:04 865

原创 qwen2.5-vl多模态大模型详解

本文已经发表在知乎，辛苦移步～《最近详细的学习了一下qwen2.5-vl国产多模态大模型，笔记如下。在本文中主要关注数据层面是如何一步一步处理的，也会把一些关键的数据tensor列出来。至于原理层面的介绍，可以参考：万字长文图解Qwen2.5-VL实现细节，【多模态大模型】Qwen2.5-VL解剖这两篇文章。

2025-09-23 14:11:50 697

原创 bevformer模型训练过程

训练完了才发现只有车辆前方安装了激光雷达，因为数据标注是在雷达坐标系下（bevformer的预测的3d结果也是在lidar坐标系下），所以导致ground truth只有车辆前方才有。正常的bevformer用的是环视一圈的相机，效果应该会更好一些，本案例中相当于只用了左前，右前，正前三个方向的相机，并且也不会预测这三个相机视角里面的所有目标，只会预测这三个相机与激光雷达视角重叠的部分的目标（因为只有这个重叠部分有标注）。项目中使用了三十万帧私有数据进行训练，由于算力和时间限制，从中抽取了2万帧用于实验。

2025-08-30 19:43:41 477

原创激光雷达速度分割模型训练

细节参考：《mmdetection3d中激光雷达速度分割模型解析》，类别共分为’ground’, ‘static’, ‘dynamic’, 'noise’共４类，noise一般包括一些汽车尾汽，扬尘，雨雾等，当然这里重点关注的还是dynamic类别。项目中使用了几十万帧私有数据进行训练，由于算力和时间限制，从中抽取了2.1万帧用于实验。评测集用了2000帧进行评测。17个epoch在1张4090卡上跑了10个小时。最近把激光雷达速度分割模型训练流程走了一遍，笔记如下。原文发表在知乎，辛苦移步～《

2025-08-26 15:50:55 418

原创激光雷达语义分割模型训练过程

细节参考：《mmdetection3d中lidar semantic parsing(激光雷达语义分割)模型解析》，类别共分为’obstacle’, ‘road’, ‘curb’, ‘vegetation’, ‘fence’, ‘ignore’, 'noise’共七类，fence包括一些墙壁，围栏，栅栏等，noise一般包括一些汽车尾汽，扬尘，雨雾等。项目中使用了几十万帧私有数据进行训练，由于算力和时间限制，从中抽取了4万帧用于实验。最近几天把激光雷达语义分割模型的训练流程又走了一遍，记录笔记如下。

2025-08-25 13:52:31 296

原创 centerpoint训练过程

用的centerpoint版本配置是：cpdet_0.2_84.8m_dv_bev_second_secfpn_dw4_4cls_1tsk，也就是栅格大小0.2米，检测范围84.8米，动态体素化，bev pillar模式，second和secfpn分别是backbone和neck，４倍下采样，４个类别，１tsk就是所有类别在一起预测。按经验来看，不同类别分开预测效果会更好，例如车和行人，大小是不一样的，4倍下采样也就是意味着0.8米的栅格内只能存在一个目标，对小目标不太友好。详细指标放在文末的附录中。

2025-08-24 16:30:50 400

原创基于coco和kitti数据集训练YOLOX

此步的主要目标是复现，并作为base，由于数据只用了20%，所以没有达到官方0.405的指标，只达到了0.304。手头有kitti的数据集，所以在kitti上进行了复现，发现效果挺差的，所以就想着找一下原因，然后优化一下，过程步骤如下。kitti，我使用了3.7k的训练集，3.7k的测试集，使用了其中的3个分类（pedestrain，car，truck）,其中我把truck和van两个类别揉合在了一起统一叫truck，然后分别映射到coco80个类别中的(person, car, truck)

2025-08-22 17:01:09 198

原创 YOLOX解析

yolox是旷视推出的模型，开源的代码核心几千行，相当于一个框架，功能还是非常完备的，代码也比较清晰。虽然说mmdetection这种更主流的框架上也有对yolox的实现，我们还是选择了旷视官方的实现版本进行研发。项目的一些特殊功能上，例如一些激光雷达难以扫到的细小障碍物，包括垃圾，石块等，我们选择了yolox作为2d层面的检测方案，另外，yolox在开源协议方面比其它的yolo系列更友好一些。640，所以保持了宽高比，先resize为(640, 193)375，因为送进模型的图片是640。

2025-08-19 02:01:51 250

原创 mmdetection3d中bevformer解析

bevformer是在bev视角检测中的经典之作，将图像特征转化成bev特征，然后再进行下游任务，目前主流的智驾方案都是基于此方案进行升级。我们在实际项目中也做过尝试，效果很不错。在50米范围内的车辆等较大目标的距离误差可以做到<1米。backbone替换为用有深度图像预训练过的dla-34，可大幅提升mAP。bev query与object query都减少，减为2500和900。图像分辨率减少50%，可大幅缩短耗时。用group detr替代detr。neck换成secondfpn。

2025-08-16 13:25:11 316

原创 mmdetection3d中激光雷达速度分割模型解析

激光雷达速度分割使用的技术架构类似于上一篇所讲的《mmdetection3d中lidar semantic parsing(激光雷达语义分割)模型解析》，不同之处在于语义分割对每个点的类别进行分类（地面，绿植等），而速度分割是对每个点的动静态信息进行分类（本项目中分4类：动态，静态，噪声，地面，主要是使用前2类，如下图，黄色为动态，绿色为静态，蓝色为地面）。本文发表在知乎，辛苦移步～～《

2025-08-13 19:46:38 177

原创 mmdetection3d中lidar semantic parsing(激光雷达语义分割)模型解析

该语义分割模型属于我们自研的，网络结构挺简单的，在特征提取方面直接复用了PFN提取bev栅格内的特征，然后在bev视角下通过hr net这个backbone提取更加深度的特征，将提取的特征再cancat到栅格内的点云上，最后在点云的所有点上通过MLP预测点的分类。这个设计挺简单粗暴，当然也有很多更好的算法，包括基于transformer的，后续有时间了再试试最新的算法，在本文中主要还是讲解这个自研的算法。

2025-08-13 13:51:41 323

原创 mmdetection3d中centerpoint解析

看了大半年的大模型，具身智能相关的多模态模型，这些模型都比较大，动辙几十亿参数量，相关的技术领域感觉也摸索的差不多了，简单回想一下就是transformer，self/cross attention，siglip/clip，peft/lora，huggingface，deepspeed，VLA/action expert/diffusion等等关键词，时间长了真有点审美疲劳，想换换口味，所以最近想着把以前工作中用到的激光雷达目标检测，语义分割类的小模型回顾一下，希望能够温故而知新，顺便在这里记录一下笔记。

2025-08-10 16:51:18 266

原创高斯牛顿法在lio-sam激光雷达slam算法中的使用

最小二乘法求解过程用的是高斯牛顿法，高斯牛顿法本身与slam无关，所以把它背后的数学原理搞明白后，剩下的就是在具体的场景中套公式使用它了。在实际自动驾驶项目中，定位模块我们选用的是lio-sam激光雷达slam算法，整体上也是经过了一年多的优化，在各种场景，例如室内外，公园，厂区，写字楼，广场等场景都做过大量测试，效果还是可以的。2，针对scan中的每个特征点，在map中用kdtree算法找到最近的5个点。1，提取点云中的角点和平面点，统一叫特征点，特征点占总体点云的比例在5%-20%左右。

2025-07-29 00:30:34 409

原创 3d gaussian splatting(3DGS-三维高斯泼溅)学习

官方的代码库： link，官方的代码的核心部分其实是cuda实现的，官方代码中的python部分只是搭建了训练的框架，负责输入/输出/模型训练等逻辑。对cuda不是特别熟悉，读起来费劲，正好看到有网友整体以python的形式重新实现了一下，代码库：link，此代码有配套的视频讲解，我看了2遍，讲得还是挺不错的，视频地址：link。下面先讲一下网友python版的代码逻辑，代码只有几百行，可以把算法的核心逻辑与代码对照起来学习，建议多看一下上面的视频，讲得挺清晰，下面也有很多截图都是从视频中截出来的。

2025-07-21 15:13:00 514

原创 π0.5与π0区别

今天详细的阅读了π0与π0.5的论文，让deepspeed帮总结了一下区别，我发现总结得太好了，肯定比我总结的好，也挺准确，直接发在这里，供未来复习。同时，也把用百度翻译付费ai翻译后的中文版式论文放在这里，大家按需下载（百度网盘传不上去，diss一下，所以传到了csdn）。

2025-06-11 19:42:58 693

原创 π 0模型数据-训练-评测过程

另外，通过百度翻译付费ai翻译了这篇论文，翻译得还不错，比阅读英文原版效率会高很多，有些细节不清楚的，可以再对照英文进行确认，翻译论文我放在百度网盘了，大家按需下载。以前详细的研究过pi0模型，主要关注点在模型的设计上，今天又详细的看了下pi0模型训练，数据，评测相关的过程，从原文中摘抄，总结一些东西，分享给大家。

2025-06-11 12:54:05 354

原创 π0模型前向推理过程详解

π0模型是vla中比较经典的模型，前段时间详细的研究了一下它的模型结构，记录如下，在这篇文章中，不讲原理，只列前向推理过程中的一些关键的过程与数据结构。

2025-06-07 02:51:48 451

原创在python中如何使用apriltag视觉定位技术

前一段时间在研究强化学习，想用在机械臂相关的任务上，强化学习中有一个比较重要的部分就是reward的设计，例如机械臂抓取任务，机械臂需要较为精准的到达目标物体的上方，然后再抓取。在这个过程中，如何获得机械臂抓手的位姿，然后判断它与目标物体的相对位置关系就比较重要，我们可以根据抓手与目标物体的距离/IOU等指标判断机械臂是否到达一个合适的位置，如果位置合适的话，reward就高一些，否则reward就低。

2025-05-19 14:54:25 1346 3

原创强化学习ppo算法在大语言模型上跑通

最近在研究强化学习，目标是想在我的机械臂上跑出效果。ppo算法是强化学习领域的经典算法，在网上检索ppo算法，出现的大部分文章都是互相抄袭，上来都列公式，让人看得云里雾里。偶然间发现一个deepspeed使用的example()，将ppo算法在facebook/opt系列大语言模型跑通，我也跑了一下，取得一点实际的效果，通过实际案例来学习，更加接地气。

2025-05-05 15:45:23 1416

原创具身智能openvla模型在lerobot机械臂上跑通

此系列文章我命名一般是：具身智能xxx模型在lerobot机械臂上复现，但这篇文章不得不改一下名字，叫"跑通",而不是"复现"，因为在实际的机械臂上效果不太好，抖动比较厉害，我训练了2种模型：1，直接预测action2，预测action的增量，也就是action与当前state之间的delta第1种效果好于第2种，虽然不能完成抓取动作，但机械臂伸向目标，尝试抓取的意思是有了。另外，人工将目标放在盘子中后，机械臂也会自动还原到初始位置，说明整体上任务逻辑是学习到了，只是动作的精度不高，导致无法完成。

2025-05-05 00:27:06 2439

原创具身智能RDT模型在lerobot机械臂上复现

前段时间用lerobot代码库中默认的ACT模型采数据训练并跑了一下效果，还是不错的。从收集数据到train到测试，基本直接用现成的，lerobot已经帮我们集成好了。但学习嘛，实践才能出真知，所以用几天又把以前看的RDT模型finetune并迁移到lerobot环境中跑起来，整体效果也还不错，从抓取成功率上来看，RDT>ACT，但动作稳定性方面来看，ACT还是更丝滑一些，详情如下。

2025-04-21 15:17:28 1969 1

原创具身智能ACT模型在lerobot机械臂上复现

ACTPolicy:_action_queue是一个模型推理出来的action的队列，每次推理生成未来100个动作，放在队列中，每次取1个下发，队列取空后，再生成下100个。机械臂在没有抓取成功的时候，也会持续往盘子位置移动，然后再回来，说明模型学习到了一些动作的连续性信息，而不是抓取成功或失败的因果关系。3，采集的数据都是一个完整的过程，需要采集不是从头开始的数据，因为可以明显观察到，抓取失败后很难恢复成功，因为没有相关的训练数据。2，采更多数据，用更多的不同道具，不同任务的数据一起训练。

2025-04-17 00:49:11 2135

原创 1350元入门具身智能-lerobot机械臂

前段时间一直在看具身智能的一些技术，包括openvla, rdt等模型，也想着在一个实际的设备上进行一些测试，当然预算有限，通过调研发现了一个较好的开源项目叫lerobot，可以在千元级满足测试需求。

2025-04-16 01:38:44 2153

原创具身智能多模态扩散模型RDT-1B数据集处理

Robotics Diffusion Transformer，简称 RDT，是一个基于扩散模型的多模态具身智能模型。本篇在上一篇的基础之上梳理一下模型训练和推理过程中，数据集的处理流程。RDT模型训练过程中输入数据中，有2个重要的数据就是state和action，对应上一篇架构图中的Zt和at，Zt在论文中英文名是proprioception，中文翻译过来是“本体感知”，就是一个128维的向量。每个维度的是什么含义参考上一篇文章。

2025-04-11 01:47:13 1600

原创具身智能多模态扩散模型RDT-1B前向推理详解

前一段时间写过关于openvla的文章，openvla是基于VLM的多模态模型，本质上基于成熟的大语言模型来预测action。本文的RDT-1B是另一种路线，是基于diffusion扩散模型，可以经过多步forward，不断的去噪，生成更加精细的action。关于RDT-1B的详细技术原理，已经有很多篇不错的文章了，本文也不再赘述，可以自行检索。RDT-1B代码其实并不复杂，但涉及的背景知识比较多，需要大家先了解扩散模型，扩散模型中的条件机制，还有一些概率论知识。

2025-04-03 03:06:34 1647

原创视觉-语言-动作大模型openvla类图

openvla的类图分为2个，第一个适用于前向推理（vla-scripts/deploy.py）和lora微调（vla-scripts/finetune.py），下面简称精简版，第二个适用于全量微调（vla-scripts/train.py），下面简称复杂版。精简版就是下面第一张图，它的类的数量会少很多，确实清爽一些（补充一下，复杂版式的类图其实比较复杂，下面的复杂版的图看起来简单是因为我把它画得简单了些，只画了重点，很多子类都没有画出来）。5，保存模型，格式转换等。为什么会这么复杂呢？

2025-03-28 02:50:03 1390

原创自动驾驶多模态大模型Senna前向推理代码详解

如果使用过mmdetection框架的同学应该能感受到框架的每一个部分都是组件，例如backbone，head，loss等等，训练的核心就是一个配置文件，通过配置文件把各部分扁平的组合在一起。个人感受，欢迎大家一起讨论。Senna是在Llava基础之上的工作，是基于Llava的代码二次开发，网络结构没有变化，所以可以理解Senna==Llava，所以可以看到Senna中一方面把Llava的一些成员覆盖了（虽然网络结构没有变化，但业务意义不一样），另一方面，也复用了LlavaMetaModel类。

2025-03-26 02:19:16 1221

原创视觉-语言-动作大模型openvla详解

最近在看具身智能领域一些代表性的模型，openvla是2024年中出的一个vla模型，详细的学习了一下，这个文章在工程实现方面写得还是非常详尽的（代码中的README和论文本身），包括环境安装，全量微调，lora微调，模型格式转换，甚至在效果不好时如何一步一步排查也写了，感觉作者是很用心的，值得我们学习。openvla模型比较经典，网络上的解读文章也比较多了，我在文末也列了2个，仅供参考。简单来说，这个模型输入就是一个prompt和pic（vla中的vl），输出就是一个指令（vla中的a）。

2025-03-25 02:12:10 2963 3

原创自动驾驶端到端模型UniAD代码详解-motion&occ部分

scene_level_offset_xxx就是各目标在主车坐标系下的轨迹坐标，与每个目标自身坐标之间的offset，也就是scene_level_xxx = scene_level_offset_xxx + 各目标在主车坐标系下的坐标，本质上是agent->scene坐标转换时，没有平移（rotation），只是做了旋转（translation）参考轨迹在第一层中，来源于scene_level_offset_anchors，在后续的layer的处理过程中会不断的被更新。

2025-03-10 01:07:01 1439

原创自动驾驶端到端模型UniAD代码详解-感知部分

UniAD作为端到端自动驾驶的开创性模型，具有不错的学习意义，学习1个模型，相当于以前的5个模型（track, map, motion prediction, occ, plan）^ v ^，以前也看过UniAD的代码，今天抽时间又把它回顾总结一下，作为记录，希望对大家也能有所帮助。

2025-03-09 03:50:23 2051

原创 Senna多模态大模型中关键数据及代码解析

每层的0应该是k, 1应该是v，（1，32，999， 128）中的1是batch size，32是multi head的head数，128是每个head的维度，999就是上次输入的999个token。今天将Senna官方代码中的eval跑了一下，同时用pycharm的debug工具追踪一些关键数据的处理流程，也梳理了代码的执行流程，记录一些关键信息如下，作为一个记录，同时也希望能对大家有所帮助。5，最终上面的一大堆文本和图片的输入，生成了2个单词，即在速度和路径上的决策信息，速度保持，路径直行。

2025-03-08 02:24:57 1362

原创 Senna模型训练的工程跑通

原文：https://zhuanlan.zhihu.com/p/28483168335多模态大模型在自动驾驶领域的落地是一个必然的趋势，它的泛化性是其它较小模型，即使是e2e模型（uniAD等）都比不了的。关于大模型，以前看过llama2的源码，也了解过大模型在自动驾驶领域的一些经典模型的基本原理，但都停留在表面。地平线去年底发了一个Senna的模型，初步看了下，感觉设计得挺好，因此把它当成深入研究多模型自动驾驶大模型的一个入口。

2025-03-07 01:09:21 1548

pi0.5### π0.5：具有开放世界泛化能力的视觉-语言-动作模型摘要 π

内容概要：π0.5是一种具有开放世界泛化能力的视觉-语言-动作模型，能够控制移动机械臂在训练数据中未出现的新家庭环境中执行复杂的多阶段任务，如清洁厨房和卧室。该模型通过协同训练，利用来自多个机器人、高级语义预测、网络数据和其他来源的数据，实现了广泛可泛化的实际操作。π0.5的设计采用分层架构，首先预测语义子任务，然后根据子任务预测低级机器人动作。实验表明，这种设计不仅提高了模型在新环境中的泛化能力，还显著增强了其执行复杂任务的性能。适合人群：对机器人技术、机器学习和人工智能感兴趣的科研人员和工程师，特别是从事机器人操作和视觉-语言模型研究的专业人士。使用场景及目标：①研究如何通过协同训练提高机器人在未知环境中的泛化能力；②开发能够在家庭环境中执行复杂任务的移动机械臂；③探索如何利用多模态数据提升机器人操作的灵活性和适应性。其他说明：π0.5模型的训练分为预训练和后训练两个阶段。预训练阶段利用离散标记进行高效训练，后训练阶段则引入流匹配动作专家以实现快速推理。模型通过结合多种数据源，如移动机械臂数据、非移动机器人数据、实验室数据、高级子任务预测和多模态网络数据，显著提升了其泛化能力。实验结果表明，π0.5不仅在全新环境中表现出色，而且在复杂多阶段任务中也展现了强大的适应性和灵活性。

2025-06-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

pi0.5### π0.5：具有开放世界泛化能力的视觉-语言-动作模型 摘要 π

空空如也

pi0.5### π0.5：具有开放世界泛化能力的视觉-语言-动作模型摘要 π