- 博客(387)
- 收藏
- 关注
原创 一次性总结数十个具身模型(24-25年Q1):从训练数据、动作预测、RL应用到Robotics VLM、VLA等(含模型架构、训练方法)
本文一开始是属于此文的前言的,但考虑到其重要性,加之那么大一张表格 看下来 阅读体验较差,故抽出取来独立成文且拆分之具身的论文解读过很多之后,便会发现整个今24年的具身模型/策略大概如下所示——目前全网独一份「(建议按照从下至上的顺序看,且,我后续也会不断完善之——毕竟还有很多并未囊括于下表中,如转载请于文章开头标明作者July及本文链接。
2025-02-01 15:20:33
19639
6
原创 π0——用于通用机器人控制的VLA模型:一套框架控制7种机械臂(基于PaliGemma和流匹配的3B模型)
在此文之前,我花了一天半,详细解读了清华这个机器人扩散大模型RDT,包括其每一个附录,并在上文中预告说:下一篇是一个3B的机器人大模型打通7种不同品牌的机械臂,这几个工作宣告机器人真正进入大模型时代故,本文来了。
2024-11-04 00:11:59
41292
26
原创 一文通透想颠覆Transformer的Mamba:从SSM、HiPPO、S4到Mamba(被誉为Mamba最佳解读)
如本文开头所说,mamba论文的一作Albert Gu多年来一直在推动SSM的发展他在SSM的基础上,通过此篇论文《》首次提出了结构化状态空间S4(这里有关于S4的更多论文),但这篇论文的可读性比较差当然,作者在YouTube上有一个关于这篇S4论文的精彩解读,比S4论文的可读性提高很多,且本文中也应用了其中的部分PPT截图,但还可以更加通俗易懂。
2023-12-11 12:48:36
389250
373
原创 ChatGPT技术原理解析:从RL之PPO算法、RLHF到GPT4、instructGPT
本篇ChatGPT笔记会全力做到,通俗易懂且循序渐进(尽最大努力让每一个初学者哪怕是文科生都能没有障碍的读懂每一字一句、每一个概念、每一个公式)一方面,对于想了解ChatGPT背后原理和如何发展而来的,逐一阐述从GPT/GPT2/GPT3到强化学习、PPO算法,最后再到instructGPT、ChatGPT、SeqGAN且本文之前,99%的文章都不会把PPO算法从头推到尾,本文会把PPO从零推到尾,按照“RL-策略梯度-重要性采样(重要性权重)-TRPO(增加信任区域和KL散度约束)-PPO”的顺序逐步
2023-01-15 22:01:27
220369
144
原创 程序员面试、算法研究、机器学习、大模型/ChatGPT/AIGC、论文审稿、具身智能/人形机器人、RAG等20大系列集锦
程序员面试、算法研究、编程艺术、红黑树、机器学习5大经典原创系列集锦与总结作者:July--结构之法算法之道blog之博主。时间:2010年10月-2018年5月,一直在不断更新中..出处:http://blog.youkuaiyun.com/v_JULY_v。说明:本博客中部分文章经过不断修改、优化,已集结出版成书《编程之法:面试和算法心得》。前言开博4年有余,...
2020-01-05 20:42:56
773220
507
原创 CNN笔记:通俗理解卷积神经网络
2012年我在北京组织过8期machine learning读书会,那时“机器学习”非常火,很多人都对其抱有巨大的热情。当我2013年再次来到北京时,有一个词似乎比“机器学习”更火,那就是“深度学习”。本博客内写过一些机器学习相关的文章,但上一篇技术文章“LDA主题模型”还是写于2014年11月份,毕竟自2015年开始创业做在线教育后,太多的杂事、琐碎事,让我一直想再写点技术性文章但每每恨时间抽不开。然由于公司在不断开机器学习、深度学习等相关的在线课程,耳濡目染中,总会顺带着学习学习。
2016-07-02 22:14:50
918688
423
原创 支持向量机通俗导论(理解SVM的三层境界)
动笔写这个支持向量机是费了不少劲和困难的,原因很简单一者这个东西本身就并不好懂,要深入学习和研究下去需花费不少时间和精力二者这个东西也不好讲清楚,尽管网上已经有朋友写得不错了(见文末参考链接),但在描述数学公式的时候还是显得不够。得益于同学白石的数学证明,我还是想尝试写一下,希望本文在兼顾通俗易懂的基础上,真真正正能足以成为一篇完整概括和介绍支持向量机的导论性的文章本文在写的过程中,参考了不少资料,包括《支持向量机导论》、《统计学习方法》及网友pluskid的支持向量机系列等等,于此,还是一篇。
2012-06-01 22:48:43
1536405
809
原创 π∗0.6——RL微调流式VLA π0.6:先基于演示数据做离线RL预训练,再在线RL后训练(与环境自主交互,从经验数据中学习,且必要时人工干预)
摘要: π0.6是PI公司提出的新一代视觉-语言-动作(VLA)模型,通过强化学习(RL)从自主经验中提升性能。其核心框架RECAP结合了离线RL预训练、在线数据采集与专家干预,利用分布式价值函数评估任务进展,并通过优势条件策略优化动作选择。实验表明,该方法在复杂任务(如折叠衣物、制作咖啡)中使吞吐量提升2倍以上,失败率降低50%,实现了长时间稳定运行。相比传统模仿学习或策略梯度方法,π0.6通过端到端优势条件化处理异构数据,解决了VLA模型在真实场景中强化学习的可扩展性与稳定性问题,为通用机器人学习提供了
2025-11-18 23:13:09
2485
4
原创 TWIST2——全身VR遥操控制:采集人形全身数据后,可训练视觉base的自主策略(基于视觉观测预测全身关节位置)
TWIST2是一套创新的人形机器人遥操作与数据采集系统,结合了全身控制的强大功能和便携性优势。该系统使用VR设备(PICO4U)和低成本动作追踪器实现全身动作捕捉,无需昂贵设备。创新性地设计了可拆卸颈部模块,集成立体视觉,支持第一人称操作。系统包含人体姿态重定向流程和基于强化学习的鲁棒动作追踪控制器,能完成长时序灵巧任务(如折叠毛巾)和高效数据采集(20分钟100次演示)。此外,提出的分层控制框架(底层运动跟踪+高层扩散策略)首次实现了基于视觉的全身自主控制。相比现有方案,TWIST2在保持全身控制能力的同
2025-11-17 11:49:33
1756
2
原创 DeepSeek-OCR——上下文视觉压缩:同等长度下,通过更少的视觉token解决长上下文处理难题
本文介绍了DeepSeek团队开发的DeepSeek-OCR模型,这是一种创新的视觉-语言模型,专注于通过视觉模态实现高效的文本信息压缩。该模型采用DeepEncoder架构,结合窗口注意力和全局注意力机制,在高分辨率输入下保持低内存消耗和少量视觉token。实验显示,在9-10倍文本压缩下达到96%+的OCR精度,在20倍压缩下约60%精度。模型支持多种分辨率输入,并具备解析图表、化学式等复杂内容的能力。训练数据涵盖3000万页多语言文档和1000万条场景文本,采用精细标注策略。解码器采用DeepSeek
2025-11-11 23:39:37
2036
1
原创 πRL——首个在线RL微调流式VLA π0/π0.5的框架:通过Flow-Noise和Flow-SDE实现精确对数似然估计,全面提升性能
本文探讨了工业机械臂智能化改造的最新方法,重点介绍了首个在线强化学习(RL)微调流式视觉语言代理(VLA)的框架πRL。针对传统自回归VLA在连续动作控制上的局限性,πRL创新性地提出了Flow-Noise和Flow-SDE两种解决方案,克服了流匹配中对数似然估计的难题。该框架通过将强化学习与基于流的VLA架构(如π0和π0.5)相结合,实现了高精度且泛化的机械臂控制能力,为工厂智能化改造提供了新的技术路径。研究表明,RL微调VLA的方法正在成为工业机械臂智能化的主流方向。
2025-11-10 13:08:11
2168
2
原创 rsl_rl——人形运控部署框架汇总:从经典RL框架rsl_rl到宇树开源的unitree_rl_gym(含unitree_sdk2_python)
本文介绍了一个强化学习框架rsl_rl,重点解析了其PPO算法的实现。该框架包含Actor-Critic网络(包括普通版、CNN版、历史记忆版和RNN版)、PPO算法实现、训练运行器等核心组件。在PPO实现部分,详细说明了其初始化过程、动作选择、环境交互处理、回报计算和参数更新机制。其中参数更新采用了裁剪优势估计、自适应学习率调整等技术,通过代理损失、价值函数损失和熵奖励三部分构成总损失进行梯度优化。框架支持多种输入数据类型,并实现了超时引导、GAE回报计算等强化学习关键技术,为策略优化提供了稳定高效的实现
2025-11-02 00:18:25
3076
1
原创 Exbody 2——富有表现力的人形全身控制:Teacher–Student两阶段训练方式,可跳简单舞蹈
UCSD团队开发的ExBody2是一种先进的人形机器人全身控制框架,通过两阶段教师-学生训练策略实现高精度动作模仿。该系统采用特权信息训练教师策略后,将其蒸馏为学生策略用于真实部署。创新性地使用了局部关键点跟踪策略和基于CVAE的运动合成技术,解决了全局跟踪误差累积和连续运动生成问题。实验表明,ExBody2在Unitree G1/H1平台上实现了优于基线方法的上半身/下半身协调跟踪表现。该系统克服了ExBody1分离控制的局限,通过全身协同mimic实现了更自然的舞蹈等高难度动作模仿。
2025-11-01 23:58:20
2680
原创 GMR——人形动作追踪的通用动作重定向:在不做复杂奖励和域随机化的前提下,缓解或消除重定向带来的伪影(含PHC的详解)
摘要:本文深入解析了通用动作重定向(GMR)方法,旨在解决人形机器人运动跟踪中的关键问题。由于人类与机器人在形态结构上的显著差异,传统重定向方法常导致脚滑、穿透等物理伪影。GMR通过五步流程实现优化:1)关键部位匹配;2)静止姿态对齐;3)局部非均匀缩放;4)带旋转约束的逆运动学求解;5)精调优化。实验表明,相比PHC等方法,GMR能有效减少伪影,提升动作质量,为人形机器人动作学习提供更可靠的数据基础。
2025-10-30 18:55:45
2739
原创 Video2Motion之GVHMR——基于重力-视角坐标的人体运动恢复:从RGB视频中提取人的SMPL轨迹(含人体姿态估计WHAM的详解)
本文系统介绍了三种3D人体姿态估计方法:WHAM、HaMeR和GVHMR。重点阐述了WHAM的架构设计,它通过结合ViTPose检测的2D关键点和图像特征,利用RNN编码运动上下文,实现从视频到SMPL参数的精确估计。文章详细解析了WHAM的两阶段训练策略:先在AMASS数据集预训练,再在真实视频数据上微调。同时介绍了WHAM的创新点,包括全局轨迹解码器设计和接触感知轨迹优化方案,有效解决了脚滑问题。这些方法共同构成了从单目视频重建带世界坐标系3D人体运动的技术体系,为具身智能研究提供了重要基础。
2025-10-28 21:02:34
2654
原创 TrajBooster——通过“轨迹中心学习”提升人形全身操作能力的VLA:把智元轮式数据迁移到宇树G1上,先二次预训练后微调(免去动捕)
摘要:TrajBooster提出了一种跨形态框架,通过将末端执行器轨迹从轮式机器人迁移到双足人形机器人,解决双足VLA微调数据稀缺问题。该框架包含真实轨迹提取、仿真重定向和真实微调三个步骤,利用AgibotG1的大规模数据提升UnitreeG1的VLA训练效果。实验表明,仅需10分钟真实遥操作数据即可实现广泛全身操作任务,展现了在多样化工作空间中的操作能力。
2025-10-20 19:11:35
3464
1
原创 PhysHSI——搬运箱子,不在话下:仿真中AMP训练,现实中结合内置的LiDAR和头部的外置相机做视觉感知、定位
本文解读了PhysHSI系统,这是一个面向真实世界的通用人形机器人-场景交互系统。该系统通过仿真训练和现实部署两大模块实现:在仿真阶段,利用重定向MoCap数据结合AMP强化学习训练出具有自然动作和泛化能力的策略;在现实部署中,通过激光雷达与相机结合的定位模块解决物体定位难题。PhysHSI能稳定完成搬箱子等交互任务,相比传统方法在泛化性和动作自然度上具有优势。其创新点包括混合参考状态初始化、非对称Actor-Critic框架等,为具身智能发展提供了新思路。
2025-10-15 16:23:35
3240
原创 ResMimic——类似预训练-微调模式的人形行走-操作:先预训练一个通用运动跟踪策略,后针对特定任务做修正
摘要:ResMimic提出了一种基于残差学习的人形机器人全身行走-操作框架,通过解耦通用运动跟踪(GMT)策略与任务特定修正,实现高效精确的控制。GMT策略在大规模人类动作数据上预训练,提供运动先验;残差策略则针对物体交互进行轻量级调整。相比现有方法依赖任务特定设计或有限全身交互,ResMimic在统一框架下支持多样化接触与动态操作,减少数据需求与奖励工程。相关研究背景涵盖人形控制、模仿学习及残差学习在机器人领域的应用,凸显该工作对推动通用全身操作的意义。
2025-10-12 11:13:00
4310
原创 23-25年总结——不再迷茫且全力具身:个人变为技术研究者,公司则先后经历大模型开发、具身开发
文章摘要: 作者回顾2023-2025年公司转型历程:2023年因ChatGPT兴起从教育转向科技公司,开发十余个大模型应用;2024年受斯坦福机器人研究启发进军具身智能领域;2025年在长沙组建团队,取得机械臂和人形机器人研发突破(如自主抓取、VR遥操、大模型交互等)。作者提出衡量个人/公司价值的标准是对社会的贡献程度,并强调通过具身智能造福千万人的愿景。文中详细记录了长沙团队在6-9月的技术突破时间表,展现快速迭代的研发能力。
2025-10-07 15:04:28
5101
6
原创 一文速览Eagle、Eagle 2、Eagle 2.5——英伟达开源的VLM:用于人形VLA GR00T N1和N1.5中
本文摘要: 《Eagle2视觉语言模型的技术解析》聚焦英伟达开源的Eagle2模型,探讨其作为先进视觉语言模型(VLM)的核心技术。文章从三大维度展开:1) 数据策略方面,Eagle2构建180+数据源池,采用"多样性优先"原则,通过数据收集、过滤、选择和增强四步优化;2) 训练方法上,创新性提出三阶段训练策略,并设计平衡感知的贪心背包算法提升训练效率;3) 模型架构层面,采用SigLIP+ConvNeXt混合视觉编码器和分块处理技术,支持高分辨率输入。实验表明,该9B参数模型性能媲美7
2025-10-06 13:52:04
3813
4
原创 Uni-NaVid(NaVid升级版)——基于视频和指令规划动作:通过在线Token合并和前瞻性预测,试图一统4类导航任务
摘要:Uni-NaVid是一种基于视频的视觉-语言-动作(VLA)模型,旨在统一多种具身导航任务。该模型通过在线Token合并机制高效处理实时视频流,支持5Hz推理频率,适用于连续环境导航。研究构建了包含四类导航任务(视觉语言导航、目标导航、具身问答和跟随任务)的360万样本数据集,并提出新的语言引导人类跟随基准。相比依赖专用模块的现有方法,Uni-NaVid能直接生成底层动作,解决了传统方法在任务泛化和实际部署中的局限性。项目代码基于LLaMA-VID和NaVid框架开发。
2025-10-06 00:41:21
4105
原创 RaC——挂衬衫且打包外卖盒:如果机器人将失败,则人类让其先回退后纠正,以减缓IL中的误差累积(让数据的增长对任务促进的效率更高)
《RaC:通过恢复与纠正扩展机器人长时任务学习能力》摘要 CMU研究者提出RaC训练范式,针对模仿学习在长时任务中的局限性。该方法在预训练基础上引入人类干预数据收集:当策略即将失败时,操作员首先回滚机器人至安全状态,再提供纠正片段。这种结构化干预包含两种关键行为:(1)恢复至分布内状态;(2)执行子任务纠正。实验表明,RaC能显著提升策略鲁棒性,在接触丰富的灵巧操作任务中实现10倍效率提升。该方法创新性地将恢复行为视为可学习技能,无需修改基础模仿学习框架,仅通过优化数据构成即可突破传统模仿学习的性能瓶颈。研
2025-10-05 00:43:33
3638
2
原创 DreamControl——结合扩散模型和RL的全身人形控制:利用在人体运动数据上训练得到的扩散先验,随后在仿真中引导RL策略完成特定任务
摘要 DreamControl提出了一种结合扩散模型与强化学习的全身类人机器人控制方法。该方法通过人类动作扩散先验引导强化学习策略,解决了传统方法在全身运动操作任务中面临的挑战。系统分为两阶段:首先利用人类动作数据训练扩散先验模型生成运动规划;然后在仿真环境中训练RL策略跟随这些规划完成特定任务。该方法仅需人类数据而非遥操作数据,显著降低数据收集成本,同时生成更自然的运动轨迹,有助于缩小仿真与现实的差距。实验表明,该方法能发现传统RL无法获得的解决方案,并实现真实机器人部署。
2025-10-04 00:01:40
3933
原创 一文通透NSA——动态分层下的“原生稀疏注意力”策略:将粗粒度的token压缩与细粒度的token选择相结合(含DSA的详解)
DeepSeek团队联合北大、华盛顿大学提出全新注意力机制NSA,通过硬件对齐和可训练稀疏性解决长序列处理难题。NSA采用层次化token建模,结合压缩、选择和滑动窗口三种路径,在保持性能的同时显著降低计算量。相比传统方法仅在推理阶段应用稀疏性,NSA实现端到端训练,并兼容现代高效解码架构。实验表明,NSA在64k上下文处理中计算量减少7.88倍,获ACL2025最佳论文,其改进版DSA已应用于DeepSeekV3.2-Exp模型。该研究为大模型长上下文处理提供了高效解决方案。
2025-10-03 20:43:44
4188
2
原创 VisualMimic——基于视觉的人形行走-操作控制:低层策略负责平衡控制且跟踪高层下发的指令、高层策略则基于自我中心视觉输入以生成任务跟踪指令
VisualMimic提出了一种基于视觉的人形机器人仿真到现实强化学习框架,通过分层策略设计实现复杂物体交互。低层任务无关策略学习人体运动先验,高层任务相关策略基于自中心视觉生成指令。采用教师-学生蒸馏方法解决动作简化带来的性能损失问题,并引入数据增强提升鲁棒性。实验证明该方法能实现零样本迁移到真实机器人,完成推箱、踢球等多样任务,在户外环境也表现稳定。相比现有方法,该框架在任务多样性和现实适应性方面取得突破,为人形机器人自主操作提供了新思路。
2025-09-28 22:32:19
4222
原创 NavFoM——打造VLN基础模型:通过安装在机器人上的摄像头和人类下达的指令,预测移动轨迹(可跨任务、跨本体)
如果前两周去长三角,见的更多是客户的话,那么本周在北京出差的这几天,见的更多是合作伙伴,比如千寻、智元、北京人形等等说到导航,这两天 则又看到了本文正要解读的NavFoM,个人觉得,该工作的创新不少,值得多读几遍。
2025-09-27 00:50:36
4475
2
原创 HDMI——人形交互式全身控制:宏观上从人类RGB视频中学习全身交互控制,微观上暂依赖动捕数据,且暂一项技能一套策略
摘要:HDMI(人形交互模仿)是一种从人类视频中学习全身控制的新框架。该研究解决了人形机器人-物体交互(HOI)中的两大挑战:数据稀缺和强化学习训练难题。方法分为三个阶段:从RGB视频提取运动轨迹、使用强化学习训练协同跟踪策略、直接部署执行。关键技术包括:统一物体表示、残差动作空间和交互奖励机制。相比传统方法,HDMI无需任务特定奖励设计,能处理不同物体类型和交互场景,实现更自然的搬运等复杂任务。该框架为人形机器人运动-操作一体化提供了通用解决方案。
2025-09-25 00:50:26
4991
2
原创 SoFTA——如何让人形在餐厅给顾客上一杯啤酒:快-慢双智能体框架,上半身高频执行精细操作,下半身低频稳步行走
SoFTA论文提出慢-快双智能体框架解决人形机器人行走时末端执行器稳定控制难题。该框架将上半身(100Hz)和下半身(50Hz)控制解耦,分别针对精细操作和步态鲁棒性设计独立奖励机制。实验显示该方法能将末端执行器加速度降低50-80%,达到接近人类水平的2m/s²以下,使端水杯等精细任务成为可能。这种差异化控制策略有效解决了行走与操作在时间尺度和控制要求上的根本性矛盾。
2025-09-21 21:07:59
4457
原创 GR00T N1.5的简介与微调——预训练和微调期间VLM被冻结且VLM升级为Eagle 2.5:教你如何逐步微调GR00T(含在宇树G1上的真机部署)
本文最开始是属于此文《一文通透GR00T N1和N1.5——英伟达开源的人形VLA:VLM Eagle-2慢思考、动作专家DiT快反应,且可类似LAPA利用海量的无标注视频做训练》的然因为我司于25年9 20/21在长沙举办的人形二次开发线下营上午讲openpi微调全流程下午先把『数采、格式转换、ACT和gr00t训练』的全套流程全部封装在了仿真中,可以快速在仿真中采数据,然后验证模型执行几个任务再之后,我们把gr00t的真机部署流程全程细讲最后再演示下面这个纸巾抓取,完美收尾,明天
2025-09-21 00:43:09
4906
7
原创 InternVLA-N1——规划-执行双系统下的VLN基础模型:具备学习型的潜在规划能力,可部署在轮式、四足、双足人形上(含我司复现实践)
本文介绍了InternVLA-N1双系统视觉语言导航模型,该系统通过System2(基于多模态大语言模型的像素目标规划器)进行中长期规划,System1(基于扩散的轻量级视觉导航策略)执行实时路径规划。为解决双系统同步延迟和二维像素坐标歧义问题,模型引入了异步推理机制和潜在token表征,并通过世界模型增强潜在规划能力。研究团队还开发了高效仿真数据生成流程,构建了包含5300万图像和80万指令的大规模数据集InternData-N1。该模型在动态环境中展现出更强的鲁棒性和连续性导航能力。
2025-09-19 22:25:01
4651
3
原创 WALL-OSS——点燃QwenVL 2.5在具身空间中的潜力:VL FFN可预测子任务及离散动作token,Action FNN则预测连续动作
本文介绍了WALL-OSS这一新型视觉-语言-动作(VLA)基础模型及其训练方案。该模型通过紧密耦合的MoE架构和两阶段训练策略(先启发后集成),有效解决了VLM在具身智能中面临的三大挑战:模态差异、预训练分布差异和训练目标差异。WALL-OSS采用统一的Uni-CoT方案,实现从高层语义到细粒度动作的端到端映射,相比传统流水线设计减少了误差累积。模型基于QwenVL2.5-3B构建,通过具身VQA增强空间推理能力,并使用静态路由机制优化多模态特征交互。实验表明,该方法显著提升了指令跟随能力和长时序任务成功
2025-09-17 17:28:27
4025
原创 TA-VLA——将关节力矩反馈融入VLA中:无需外部力传感器,即可完成汽车充电器插入(且可多次自主尝试)
本文探讨了具身智能开发的前景,重点解读了TA-VLA模型在机械臂精密操作中的应用。研究表明,通过将关节力矩信号集成到视觉-语言-动作模型中,可显著提升机械臂对物理接触的感知能力。作者系统分析了力矩信号在模型中的三种集成维度(时序、位置、方式),发现将历史力矩编码为解码器的单一token效果最佳。实验证明,这种设计在10项任务中优于传统VLA方法,特别是在充电器插拔等精细操作任务中,能准确区分接触状态。该研究为工业智能化提供了重要技术支撑,推动机器人从自动化向智能化的升级
2025-09-13 23:36:30
4449
5
原创 ConRFT——Consistency Policy下RL微调VLA的方法:离线通过演示数据微调(结合Q损失和BC损失),后在线RL微调,且引入人工干预
本文探讨了具身智能中模仿学习(IL)、视觉语言模型(VLA)和强化学习(RL)的融合趋势。研究表明,单纯IL学习速度快但精准度不足,单纯VLA泛化性强但缺乏精准控制,单纯RL精准度高但样本效率低。作者提出ConRFT方法,通过两阶段一致性策略强化微调:先利用少量演示数据离线微调(Cal-ConRFT),再结合人机协同(HIL)在线微调(HIL-ConRFT)。该方法在保持VLA通用能力的同时,通过统一训练目标整合BC损失和Q学习,有效解决了接触丰富任务中的样本效率和安全探索问题,为工业机械臂智能化提供
2025-09-10 00:32:23
4249
原创 ASAP的核心源码解析与训练部署——Delta增量动作模型、控制算法(比如力感知控制)的编码实现:含我司部署实践
摘要:ASAP框架创新性地结合增量学习与Delta动力学模型实现机器人运动控制优化。其核心模块包括:1)基于PPO扩展的双策略运动控制代理(DeltaA),通过主策略训练与参考策略对比实现增量学习;2)Delta动力学模型(DeltaDynamics),采用三层MLP网络预测状态变化量,并分解多分量损失进行精细优化。系统支持仿真与现实轨迹对齐,工作流程包含数据采集、策略优化和动力学建模三个关键环节,通过定期重采样、多维度损失计算和模型保存等机制提升训练效果。该框架为机器人运动控制提供了一种可扩展的增量学习方
2025-09-08 17:54:57
3885
原创 EmbodiedOneVision——单个模型中集成离散自回归解码与连续流匹配去噪:Qwen 2.5 VL加两个MLP头完成具身推理、动作生成
本文解读了EO-Robotics这一开源工作,该模型通过交错视觉-文本-动作预训练实现了类似π0.5的统一架构。与早期VLA模型不同,EO-Robotics支持灵活的多模态交互,在训练时采用离散token自回归方式,推理时则输出连续动作。其核心创新包括:1)构建交错多模态数据集,结合网络视觉-语言数据和机器人操作片段;2)采用统一Transformer架构,集成离散文本解码和连续动作流匹配;3)实现推理与动作的时序协同。该工作为构建通用机器人策略提供了新思路,既保留了视觉语言模型的语义理解能力,又增强了机器
2025-09-07 22:02:10
3813
3
原创 BumbleBee——人形通用全身控制:先数据聚类、后每个聚类上训练专家策略(且通过增量动作模型弥补sim与real之间的差距)、最后蒸馏整合
现在号称 “人形通用全身控制” 的工作越来越多了,比如本文要介绍的BumbleBee此外,近期还有各种各大厂商千万级的订单,当然了,其更多还只是购买本体,还没到可以大规模干活的阶段毕竟实际开发者都懂,目前让人形跳舞容易,实际干活不容易然,不管怎么说,从运动到干活本质还是一个过程,也期待与更多的科研院所、高校、公司多多合作,共同加速具身的场景落地与实用化。
2025-09-06 12:12:59
3479
1
原创 GMT——用于人形全身控制的通用运动跟踪:两阶段师生训练框架下,全身基于单一策略,且自适应采样、MoE架构
本文介绍了人形机器人通用运动控制的最新研究进展,重点解读了GMT(通用运动跟踪)系统。该系统通过创新性的自适应采样策略和运动专家混合(MoE)架构,解决了人形机器人控制中的关键挑战:数据分布不均衡、硬件限制和模型表达能力不足等问题。研究采用两阶段师生训练框架,结合AMASS和LAFAN1数据集,开发出能实现多样化类人动作的单一统一控制器,包括行走、踢腿等复杂动作。相比传统方法需要为每个任务单独设计控制器,GMT展示了更通用的运动跟踪能力,为人形机器人在日常环境中的广泛应用奠定了基础。
2025-09-05 15:20:18
3385
原创 FALCON——力自适应RL框架:上下双智能体(上肢操作策略、下肢行走策略)共享本体感觉和命令,然后联合训练
《FALCON:力自适应人形机器人行走操作的双智能体强化学习框架》 摘要:本文提出FALCON框架,针对人形机器人在高强度行走操作任务中的力适应问题,采用双智能体强化学习架构。通过将上下半身控制策略解耦训练,并共享全身感知信息,FALCON实现了在三维末端执行器力作用下的协调控制。创新性地设计了考虑关节扭矩限制的三维力课程,使策略能逐步学习力适应能力。实验表明,相比传统方法,FALCON在训练效率、运动稳定性和操作精度方面表现更优,并在Unitree G1和Booster T1平台上验证了其跨平台泛化能力,
2025-09-04 17:51:01
3566
原创 SERL——针对真机高效采样的RL系统:基于图像观测和RLPD算法等,开启少量演示下的RL精密插拔之路(含插入基准FMB的详解)
本文系统梳理了机器人强化学习框架SERL及其相关技术发展脉络。研究始于RLDG复现需求,回溯至其基础HIL-SERL框架,进而解析其核心算法RLPD(2023),并延伸至SERL(2024)前身工作。文章重点分析了SERL框架的创新性:1)整合了高样本效率的RLPD算法;2)提供图像观测兼容的奖励指定方法;3)实现自动任务重置机制;4)开发通用机器人适配接口。研究特别强调,SERL通过精心设计的实现细节(如阻抗控制器、高UTD比训练)在15-60分钟内完成复杂操作任务训练,验证了现有算法经优化后可达实用效率
2025-09-01 12:39:10
3476
原创 RLPD——利用离线数据实现高效的在线RL:不进行离线RL预训练,直接应用离策略方法SAC,在线学习时对称采样离线数据
摘要:本文介绍了两项强化学习前沿工作RLPD和RLDG。RLPD提出了一种高效融合离线数据的在线强化学习方法,通过"对称采样"机制(50%在线数据+50%离线数据)和层归一化技术,有效缓解了价值函数过度外推问题,在多个基准测试中实现了SOTA性能。RLDG则采用知识蒸馏框架,先训练精密任务RL策略生成数据,再微调视觉语言模型,性能超越人类演示数据。两项工作分别从数据利用效率和知识迁移角度推进了强化学习在实际场景中的应用,特别是在样本效率、稳定性和泛化能力方面取得重要突破。(149字)
2025-08-30 23:33:16
3726
[第一部分]精选微软等公司数据结构+算法经典面试100题[1-40题]
2010-10-23
[第二部分]精选微软等公司结构+算法面试100题[41-60题]
2010-11-05
新鲜出炉:微软等数据结构+算法面试100题第81-100题[V0.1版最后20题]
2010-12-05
[汇总I]精选微软等数据结构+算法面试100题[第1-60题]
2010-11-12
数学建模10大算法详解+程序源码打包
2011-01-29
十三个经典算法研究PDF文档[带目录+标签]
2011-07-08
红黑树的c实现源码与教程
2011-01-03
[最新答案V0.4版]微软等数据结构+算法面试100题[第41-60题答案]
2011-01-04
结构之法 算法之道 第一期博文CHM文件集锦[版权所有,侵权必究]
2011-03-06
微软面试100题系列之高清完整版PDF文档[带目录+标签]by_July
2012-09-20
结构之法算法之道blog博文集锦第7期CHM文件
2012-07-29
读书会·北京第1期之DeepQA框架&Siri;架构PPT
2012-02-13
[最新整理公布][汇总II]微软等数据结构+算法面试100题[第1-80题]
2010-11-20
基于给定的文档生成倒排索引的全部源码
2012-01-10
最新十五个经典算法研究与总结之高清完整PDF文档[带目录+标签]by_July
2012-08-05
[开源分享]推荐一款界面超酷的Pocket PC 掌上电脑[源码下载]
2010-12-08
结构之法算法之道博文集锦最新第五期(July、10.31日制作)
2011-10-31
程序员编程艺术第一~三十七章集锦 高清完整PDF版
2013-12-10
程序员编程艺术第一 ~二十七章(教你如何编程)高清完整PDF版by_July
2012-04-25
[极品收藏]Windows 核心编程完整中文pdf版(上)
2010-10-25
[极品收藏]Windows 核心编程完整中文pdf版(中)
2010-10-25
[极品收藏]Windows 核心编程完整中文pdf版(下)
2010-10-25
[答案V0.1版]精选微软数据结构+算法面试100题[前25题]
2010-10-30
[总结]各大内部排序算法性能比较+程序实现
2010-11-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅