- 博客(360)
- 收藏
- 关注

原创 一次性总结数十个具身模型(24-25年Q1):从训练数据、动作预测、训练方法到Robotics VLM、通用VLA π0等
本文一开始是属于此文的前言的,但考虑到其重要性,加之那么大一张表格 看下来 阅读体验较差,故抽出取来独立成文且拆分之具身的论文解读过很多之后,便会发现整个今24年的具身模型/策略大概如下所示——目前全网独一份「(建议按照从下至上的顺序看,且,我后续也会不断完善之——毕竟还有很多并未囊括于下表中,如转载请于文章开头标明作者July及本文链接。
2025-02-01 15:20:33
16449
6

原创 π0——用于通用机器人控制的VLA模型:一套框架控制7种机械臂(基于PaliGemma和流匹配的3B模型)
在此文之前,我花了一天半,详细解读了清华这个机器人扩散大模型RDT,包括其每一个附录,并在上文中预告说:下一篇是一个3B的机器人大模型打通7种不同品牌的机械臂,这几个工作宣告机器人真正进入大模型时代故,本文来了。
2024-11-04 00:11:59
33325
24

原创 一文通透想颠覆Transformer的Mamba:从SSM、HiPPO、S4到Mamba(被誉为Mamba最佳解读)
如本文开头所说,mamba论文的一作Albert Gu多年来一直在推动SSM的发展他在SSM的基础上,通过此篇论文《》首次提出了结构化状态空间S4(这里有关于S4的更多论文),但这篇论文的可读性比较差当然,作者在YouTube上有一个关于这篇S4论文的精彩解读,比S4论文的可读性提高很多,且本文中也应用了其中的部分PPT截图,但还可以更加通俗易懂。
2023-12-11 12:48:36
349584
348

原创 ChatGPT技术原理解析:从RL之PPO算法、RLHF到GPT4、instructGPT
本篇ChatGPT笔记会全力做到,通俗易懂且循序渐进(尽最大努力让每一个初学者哪怕是文科生都能没有障碍的读懂每一字一句、每一个概念、每一个公式)一方面,对于想了解ChatGPT背后原理和如何发展而来的,逐一阐述从GPT/GPT2/GPT3到强化学习、PPO算法,最后再到instructGPT、ChatGPT、SeqGAN且本文之前,99%的文章都不会把PPO算法从头推到尾,本文会把PPO从零推到尾,按照“RL-策略梯度-重要性采样(重要性权重)-TRPO(增加信任区域和KL散度约束)-PPO”的顺序逐步
2023-01-15 22:01:27
217442
142

原创 程序员面试、算法研究、机器学习、大模型/ChatGPT/AIGC、论文审稿、具身智能/人形机器人、RAG等20大系列集锦
程序员面试、算法研究、编程艺术、红黑树、机器学习5大经典原创系列集锦与总结作者:July--结构之法算法之道blog之博主。时间:2010年10月-2018年5月,一直在不断更新中..出处:http://blog.youkuaiyun.com/v_JULY_v。说明:本博客中部分文章经过不断修改、优化,已集结出版成书《编程之法:面试和算法心得》。前言开博4年有余,...
2020-01-05 20:42:56
770281
506

原创 CNN笔记:通俗理解卷积神经网络
2012年我在北京组织过8期machine learning读书会,那时“机器学习”非常火,很多人都对其抱有巨大的热情。当我2013年再次来到北京时,有一个词似乎比“机器学习”更火,那就是“深度学习”。本博客内写过一些机器学习相关的文章,但上一篇技术文章“LDA主题模型”还是写于2014年11月份,毕竟自2015年开始创业做在线教育后,太多的杂事、琐碎事,让我一直想再写点技术性文章但每每恨时间抽不开。然由于公司在不断开机器学习、深度学习等相关的在线课程,耳濡目染中,总会顺带着学习学习。
2016-07-02 22:14:50
909496
421

原创 支持向量机通俗导论(理解SVM的三层境界)
动笔写这个支持向量机是费了不少劲和困难的,原因很简单一者这个东西本身就并不好懂,要深入学习和研究下去需花费不少时间和精力二者这个东西也不好讲清楚,尽管网上已经有朋友写得不错了(见文末参考链接),但在描述数学公式的时候还是显得不够。得益于同学白石的数学证明,我还是想尝试写一下,希望本文在兼顾通俗易懂的基础上,真真正正能足以成为一篇完整概括和介绍支持向量机的导论性的文章本文在写的过程中,参考了不少资料,包括《支持向量机导论》、《统计学习方法》及网友pluskid的支持向量机系列等等,于此,还是一篇。
2012-06-01 22:48:43
1532876
807
原创 EmbodiedOneVision——类似π0.5集成了离散自回归解码与连续流匹配去噪:单个模型中完成具身推理、动作生成
本文解读了EO-Robotics这一开源工作,该模型通过交错视觉-文本-动作预训练实现了类似π0.5的统一架构。与早期VLA模型不同,EO-Robotics支持灵活的多模态交互,在训练时采用离散token自回归方式,推理时则输出连续动作。其核心创新包括:1)构建交错多模态数据集,结合网络视觉-语言数据和机器人操作片段;2)采用统一Transformer架构,集成离散文本解码和连续动作流匹配;3)实现推理与动作的时序协同。该工作为构建通用机器人策略提供了新思路,既保留了视觉语言模型的语义理解能力,又增强了机器
2025-09-07 22:02:10
713
原创 BumbleBee——人形通用全身控制:先数据聚类、后每个聚类上训练专家策略(且通过增量动作模型弥补sim与real之间的差距)、最后蒸馏整合
现在号称 “人形通用全身控制” 的工作越来越多了,比如本文要介绍的BumbleBee此外,近期还有各种各大厂商千万级的订单,当然了,其更多还只是购买本体,还没到可以大规模干活的阶段毕竟实际开发者都懂,目前让人形跳舞容易,实际干活不容易然,不管怎么说,从运动到干活本质还是一个过程,也期待与更多的科研院所、高校、公司多多合作,共同加速具身的场景落地与实用化。
2025-09-06 12:12:59
884
原创 GMT——用于人形全身控制的通用运动跟踪:两阶段师生训练框架下,全身基于单一策略,且自适应采样、MoE架构
本文介绍了人形机器人通用运动控制的最新研究进展,重点解读了GMT(通用运动跟踪)系统。该系统通过创新性的自适应采样策略和运动专家混合(MoE)架构,解决了人形机器人控制中的关键挑战:数据分布不均衡、硬件限制和模型表达能力不足等问题。研究采用两阶段师生训练框架,结合AMASS和LAFAN1数据集,开发出能实现多样化类人动作的单一统一控制器,包括行走、踢腿等复杂动作。相比传统方法需要为每个任务单独设计控制器,GMT展示了更通用的运动跟踪能力,为人形机器人在日常环境中的广泛应用奠定了基础。
2025-09-05 15:20:18
961
原创 FALCON——力自适应RL框架:上下双智能体(上肢操作策略、下肢行走策略)共享本体感觉和命令,然后联合训练
《FALCON:力自适应人形机器人行走操作的双智能体强化学习框架》 摘要:本文提出FALCON框架,针对人形机器人在高强度行走操作任务中的力适应问题,采用双智能体强化学习架构。通过将上下半身控制策略解耦训练,并共享全身感知信息,FALCON实现了在三维末端执行器力作用下的协调控制。创新性地设计了考虑关节扭矩限制的三维力课程,使策略能逐步学习力适应能力。实验表明,相比传统方法,FALCON在训练效率、运动稳定性和操作精度方面表现更优,并在Unitree G1和Booster T1平台上验证了其跨平台泛化能力,
2025-09-04 17:51:01
1282
原创 SERL——针对真机高效采样的RL系统:基于图像观测和RLPD算法等,开启少量演示下的RL精密插拔之路(含插入基准FMB的详解)
本文系统梳理了机器人强化学习框架SERL及其相关技术发展脉络。研究始于RLDG复现需求,回溯至其基础HIL-SERL框架,进而解析其核心算法RLPD(2023),并延伸至SERL(2024)前身工作。文章重点分析了SERL框架的创新性:1)整合了高样本效率的RLPD算法;2)提供图像观测兼容的奖励指定方法;3)实现自动任务重置机制;4)开发通用机器人适配接口。研究特别强调,SERL通过精心设计的实现细节(如阻抗控制器、高UTD比训练)在15-60分钟内完成复杂操作任务训练,验证了现有算法经优化后可达实用效率
2025-09-01 12:39:10
1267
原创 RLPD——利用离线数据实现高效的在线RL:不进行离线RL预训练,直接应用离策略方法SAC,在线学习时对称采样离线数据
摘要:本文介绍了两项强化学习前沿工作RLPD和RLDG。RLPD提出了一种高效融合离线数据的在线强化学习方法,通过"对称采样"机制(50%在线数据+50%离线数据)和层归一化技术,有效缓解了价值函数过度外推问题,在多个基准测试中实现了SOTA性能。RLDG则采用知识蒸馏框架,先训练精密任务RL策略生成数据,再微调视觉语言模型,性能超越人类演示数据。两项工作分别从数据利用效率和知识迁移角度推进了强化学习在实际场景中的应用,特别是在样本效率、稳定性和泛化能力方面取得重要突破。(149字)
2025-08-30 23:33:16
1455
原创 知识蒸馏RLDG:先基于精密任务训练RL策略,后让其自动生成数据,最后微调VLA,效果超越人类演示数据
论文《RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning》提出通过强化学习生成高质量训练数据,以提升通用机器人策略(如OpenVLA/Octo)在精密操作任务中的性能。传统基于人类演示的微调存在精度不足、数据不一致等问题,而RLDG先训练任务专用RL策略生成优化轨迹,再蒸馏至通用模型,实验显示其成功率比人类演示高30%,泛化能力提升50%。该方法结合了RL的精确控制与基础模型的泛化优势,尤其在接触密集型任务
2025-08-30 12:09:49
1975
原创 LBM——大型行为模型助力波士顿人形Atlas完成多任务灵巧操作:CLIP编码图像与语义,之后DiT去噪扩散生成动作
摘要:大型行为模型(LBM)正成为机器人操控领域的研究热点,受到大语言模型成功的启发。本文解析了LBM的关键技术:采用扩散模型(DDIM)构建视觉运动控制策略,通过Transformer架构处理多模态输入。研究指出,相比单任务模型,LBM在任务泛化、样本效率和抗干扰性方面表现更优。文章还探讨了机器人数据集获取的挑战,包括远程操作、仿真协同训练等方法。尽管LBM展现出潜力,但仍面临仿真-现实鸿沟、多模态融合等难题。波士顿动力Atlas的出色表现印证了LBM在实际应用中的价值。
2025-08-29 21:36:25
1354
原创 HITTER——让双足人形打乒乓球(且可根据球的走向移动脚步):高层模型规划器做轨迹预测和击球规划,低层RL控制器完成击球
摘要:UC伯克利团队开发的人形乒乓球机器人HITTER突破了传统机器人动作模仿的局限,实现了在动态环境中的高速交互。该系统采用分层架构,结合基于模型的轨迹预测和强化学习控制器,使机器人能在亚秒级反应时间内完成击球动作。相比静态操作,该研究展示了人形机器人在实时动态任务中的突破,为具身智能发展提供了新方向。这标志着人形机器人从表演性动作向实用化迈进的"MobileAloha时刻",预示着未来在运动陪练等场景的应用潜力。
2025-08-29 16:48:18
1918
1
原创 BeyondMimic——通过引导式扩散实现动作捕捉:基于Diffuse-CLoC构建扩散框架,可模仿动作、导航避障(含UniTracker的详解)
UniTracker是一个用于人形机器人全身运动跟踪的统一框架,通过集成条件变分自编码器(CVAE)来增强动作多样性和全局一致性。该框架采用三阶段训练:基于特权观测的教师策略训练、部分观测的学生策略学习,以及针对特定动作的快速微调。研究团队从AMASS数据集中筛选并重定向动作数据,使用SMPL模型参数表示人体动作,并通过两阶段方法将其适配到机器人模型。相比传统方法,UniTracker能更好地处理动作多样性、泛化能力和全局上下文问题,为人形机器人的locomotion控制提供了新思路。目前项目尚未开源,但展
2025-08-28 21:29:54
1910
原创 LeVERB——潜在视觉-语言指令驱动的人形全身控制:快慢双系统下VLM感知环境和指令,VLA执行动作(完全基于合成数据进行训练)
LeVERB是首个基于视觉-语言潜在动作的人形机器人全身控制系统,由加州伯克利等机构联合研发。该系统采用分层架构:高级视觉-语言策略(系统2)解析多模态输入并生成潜在动作计划;低级反应式控制器(系统1)以50Hz频率执行全身动作。创新点包括:1)通过合成数据流程生成17.1小时真实感运动数据;2)残差条件变分自编码器实现语义对齐;3)判别器消除模态差异。实验表明LeVERB能完成"走到桌子旁"等复杂指令,填补了视觉语言驱动人形控制的空白。项目网站已开源相关代码和数据集。
2025-08-26 21:35:21
1631
原创 一文通透GSPO——Qwen3所用的“群体序列策略优化”:摒弃token级别的off-policy校正,而在序列级别利用重要性权重进行优化
文章摘要: DeepSeek的GRPO方法与Qwen的创新对比。Qwen团队提出GSPO算法,通过序列级概率定义重要性比率,解决了GRPO训练不稳定问题。GSPO在训练效率、性能上优于GRPO,尤其稳定了MoE模型训练,为Qwen3带来显著提升。研究表明,GSPO有望成为大模型强化学习训练的新基准。(149字)
2025-08-25 12:42:10
1994
2
原创 图文对比学习的发展史:从CLIP、BLIP、BLIP2、InstructBLIP到具身模型常用的SigLIP
本文介绍了AI图像生成领域的重要发展历程,从CLIP、BLIP到InstructBLIP等模型。CLIP通过对比学习实现文本-图像对齐,BLIP结合编码器-解码器统一理解和生成任务,BLIP2引入Q-Former桥接视觉和语言模型,InstructBLIP则对Q-Former进行指令微调增强任务适应性。这些模型采用预训练-微调范式,通过大规模数据训练实现强大的跨模态能力,推动了AI绘画技术的发展。
2025-08-22 23:13:18
2230
原创 一文通透ViT:把图片划分成一个个patch块后再做注意力计算,打破CNN在CV领域的统治地位(含Swin Transformer的详解)
本文介绍了视觉Transformer(ViT)和Swin Transformer的发展历程及其在计算机视觉领域的应用。ViT通过将图像分割为16x16的块并作为Transformer输入,成功挑战了CNN在视觉领域的统治地位。文章详细解析了ViT的架构(Embedding层+Transformer Encoder+MLP Head)和与CNN的差异。随后介绍了Swin Transformer,它通过窗口设计和多尺度特征提取,解决了ViT在检测和分割任务中的局限性。Swin Transformer采用移动窗口
2025-08-22 22:37:43
2158
4
原创 NavA3——双VLM架构下的先“推理解析”后“定位导航”:理解任意指令,导航至任意地点,查找任意目标
本文提出NavA3分层框架,通过全局和局部策略解决具身导航任务中的高层次指令理解问题。全局策略利用Reasoning-VLM解析指令并推断目标物体及其可能位置;局部策略采用NaviAfford模型在目标区域进行精确物体定位。该系统基于三维场景重建和语义标注,支持复杂空间关系理解,在长时序导航任务中展现出卓越性能。实验表明NavA3能有效处理"我想要一杯咖啡"等自然指令,实现精准导航,具备跨机器人平台的适应能力。
2025-08-21 17:35:25
2347
原创 CorrectNav——基于VLM构建带“自我纠正飞轮”的VLN:通过「视觉输入和语言指令」预测导航动作,且从动作和感知层面生成自我修正数据
本文介绍了一种高效的视觉语言导航(VLN)模型CorrectNav,它通过创新的"自我修正飞轮"训练范式显著提升了导航成功率。该方法将训练过程中的错误轨迹转化为改进机会,通过四个步骤循环优化:错误检测、偏差定位、生成修正数据(动作/感知层面)、模型再训练。实验显示,CorrectNav在VLN-CE基准测试中分别达到65.1%和69.3%的成功率,超越现有最优模型8.2%和16.4%。相比依赖额外模块的纠错方法,该方案将纠错能力隐式集成到模型中,更适用于实际机器人部署,在动态避障和长指令
2025-08-21 00:10:53
1747
原创 VLN领域的“ImageNet”打造之路:从MP3D数据集、MP3D仿真器到Room-to-Room(R2R)、RxR、VLN-CE
摘要:2017年研究者基于Matterport3D数据集开发了仿真环境Matterport3D Simulator,并构建了Room-to-Room(R2R)基准数据集,推动视觉与语言导航(VLN)研究发展。R2R包含21,567条自然语言导航指令,覆盖90个真实建筑场景,建立了导航成功率、路径长度和导航误差三大评估指标。该数据集解决了此前研究中数据孤立的问题,为VLN领域提供了首个标准化评估基准。模拟器采用离散化动作空间设计,支持RGB-D观测,并保留了真实场景的视觉丰富性。R2R与后续RxR数据集共同成
2025-08-20 21:24:31
1571
原创 Tactile-VLA——将触觉作为原生模态引入VLA:触觉参与动作生成,且根据触觉推理出合适的力度大小,以高成功率搞定充电器和USB插拔
摘要: Tactile-VLA是一种融合视觉、语言与触觉的多模态机器人操作框架,通过触觉感知提升接触丰富任务的执行精度。该模型基于π0架构改进,引入触觉编码器和混合力控机制,将语言指令(如"轻柔地")直接映射为物理力目标。通过端到端流匹配训练,模型展现了零样本泛化能力,包括力控指令迁移、物体自适应抓握及基于触觉反馈的自主纠错。实验表明,Tactile-VLA在插拔、装配等需精细力控的场景中优于传统视觉-语言模型,实现了语义理解与物理交互的深度结合。
2025-08-18 17:25:38
2240
原创 一文通透Qwen LLM系列——从Qwen、Qwen1.5、Qwen2、Qwen2.5到Qwen3(融合了chat和推理)、Qwen3 MoE
通义千问Qwen3系列大模型在架构、训练和数据方面实现全面升级。该系列包含6个稠密模型和2个MoE模型,其中2350亿参数的旗舰模型Qwen3-235B-A22B在多项基准测试中超越同类产品。模型采用分组查询注意力、SwiGLU等先进架构,通过三阶段预训练(通用、推理、长上下文)处理36万亿token的多语言数据。后训练创新性地引入"思维控制"和"强到弱蒸馏"技术,显著提升模型推理能力和训练效率。相比前代Qwen2.5,新模型在参数效率、多语言支持和长文本处理等方面均
2025-08-16 15:00:02
2699
原创 EgoVLA——根据第一视角的人类视频中训练的VLA模型:助力家具组装等人形灵巧操作任务的攻克(利用可穿戴手部追踪)
摘要:七月在线公司聚焦人形机器人和机械臂两大应用场景,重点研究灵巧操作、展厅讲解、智能装配和精密插拔技术。EgoVLA模型通过人类第一视角视频学习操作技能,将人类动作转化为机器人指令,大幅降低对机器人硬件数据的依赖。该模型采用NVILA-2B架构,结合手腕姿态和手部参数预测未来动作,仅需少量机器人演示数据微调即可实现跨域迁移。研究构建了包含50万样本的第一人称操作数据集,并开发了仿人双臂操作基准测试,验证了该方法的有效性。
2025-08-15 00:45:49
2871
原创 Galaxea G0——类似Hi Robot的「VLM高层推理 + VLA低层执行」:子任务标注数据训练前者VLM,且三阶段训练后者VLA
摘要:本文系统解读了星海图提出的G0双系统VLA模型及其配套的Galaxea开放世界数据集。G0采用双系统架构:系统2(G0-VLM)负责多模态规划,系统1(G0-VLA)执行精确动作操作。配套数据集包含500小时真实场景数据,覆盖50个场景150项任务,采用统一机器人实体采集确保一致性。研究提出了三阶段训练课程,并通过实验验证了单一实体预训练的重要性。与现有模型(如π0.5)相比,G0在开放世界任务中展现出更强的泛化能力。该工作为具身智能在真实场景的应用提供了新范式。
2025-08-14 17:04:03
2216
原创 ForceVLA——将具备力感知的MoE整合进π0的动作专家中:从而融合“视觉 语言 力反馈”三者实现精密插拔
摘要:ForceVLA是一种新型视觉-语言-动作(VLA)模型,通过引入力感知专家混合(MoE)模块,将6D力反馈与视觉语言信息融合,显著提升了机器人在精密插拔等接触密集型任务中的表现。相比现有主要依赖视觉的VLA模型,ForceVLA能动态感知任务各阶段的力变化,实现更精确的物理交互。该模型在π0框架基础上,通过SigLIP视觉语言编码器处理多摄像头输入,并结合本体感知和力觉信息,利用条件流匹配生成动作轨迹。实验表明,ForceVLA能有效应对视觉模糊场景,在多种插拔任务中展现出更强的鲁棒性和适应性。
2025-08-13 00:00:46
2444
1
原创 IDEA-Research推出的一系列检测、分割模型:从DINO(改进版DETR)、Grounding Dino、DINO-X到Grounded SAM2
本文聚焦IDEA-Research开发的系列目标检测模型,重点解析GroundingDINO的创新架构。该模型通过双编码器-单解码器设计,创新性地融合视觉与语言模态:1)特征增强器实现跨模态特征对齐;2)语言引导查询选择模块优先筛选文本相关的视觉特征;3)跨模态解码器引入文本注意力层。相比传统检测器,其突破性在于:采用子句级文本表征消除无关词项干扰,并通过对比损失实现开放集检测。文章还预告将分析DINO-X等后续模型,形成完整的视觉-语言联合检测技术演进图谱。(149字)
2025-08-07 13:59:08
2634
原创 一看视频就能学会的VideoMimic——三步走:先real2sim(涉及视频作为输入、提取姿态且点云化、重定向到G1上),后sim中训练,最后sim2real
UC伯克利提出VideoMimic框架,通过单目视频实现人形机器人动作模仿。该方法从视频中重建4D人-场景几何,将动作重定向到机器人,并训练强化学习策略。系统包含四个阶段:预处理提取人体姿态和场景点云;联合优化人体与场景几何;生成仿真兼容的网格数据;通过多阶段策略学习实现动作跟踪和蒸馏。最终策略仅需本体感知和局部高度图即可控制机器人完成行走、攀爬等动作,并在Unitree G1机器人上验证成功。该方法无需人工奖励设计,直接从视频数据学习环境感知的全身控制技能。
2025-08-06 16:46:08
3675
原创 TrackVLA——开放世界下的四足具身视觉跟踪EVT(智能跟随):集目标识别与轨迹规划为一体的VLA,不怕高动态与遮挡
TrackVLA是一种新型视觉-语言-动作模型,将目标识别与轨迹规划整合到统一框架,解决具身视觉跟踪(EVT)任务中的误差累积问题。该模型采用联合训练方式,利用85.5万条视频识别和机器人跟踪样本,通过语言建模头和扩散头分别处理识别与规划任务。相比传统将感知与规划解耦的方法,TrackVLA在高度动态环境中展现出更优性能,支持自然语言输入,并实现了识别与规划的协同优化,为机器人跟随等应用提供了新思路。
2025-08-05 18:58:25
2897
原创 Manual2Skill——让VLM从装配手册中提取装配步骤,随后做姿态估计,最终完成IKEA家具的自动组装(含IKEA-Manuals的详解)
Manual2Skill:基于视觉语言模型的家具自动装配框架 摘要:新加坡国立大学等机构提出的Manual2Skill框架,通过视觉语言模型(VLM)理解家具装配手册,实现自主机器人装配。该框架首先利用GPT-4o解析手册中的抽象示意图,生成分层装配图;然后结合部件点云和手册图像预测6D装配位姿;最后通过运动规划生成无碰撞装配轨迹。实验表明,该方法能有效处理复杂的长时序装配任务,显著减少对示范数据的依赖。相比传统方法局限于简单桌面任务,Manual2Skill突破了复杂家具装配的挑战,为智能制造提供了新思路
2025-08-02 01:14:51
3312
2
原创 LOVON——面向足式Open-Vocabulary的物体导航:LLM做任务分解、YOLO11做目标检测,最后L2MM将指令和视觉映射为动作(且解决动态模糊)
摘要: LOVON是一种新型足式机器人系统,通过整合大语言模型(LLM)的任务规划、开放词汇视觉检测和语言到运动模型(L2MM),实现了复杂长时任务的自主执行。该系统创新性地采用拉普拉斯方差滤波技术缓解运动抖动问题,并设计了功能执行逻辑确保任务鲁棒性。实验表明,LOVON在仿真和真实机器人平台(如Unitree Go2)上能有效完成开放词汇目标搜索与导航任务,解决了传统方法在长时序、动态环境中的局限性。该研究为足式机器人在非结构化环境中的高级自主性提供了新思路。
2025-08-01 16:32:19
2419
1
原创 NaVid——基于单目RGB捕获的视频让VLM规划「连续环境中VLN」的下一步:无需地图/里程计/深度信息(含后续升级版Uni-NaVid的详解)
因为我司准备于25年7月底复现下NaVILA,而在研究NaVILA的过程中,注意到了这个NaVid虽然NaVid目前已经不是VLN sota了,但其首次展示了VLM在无需地图、里程计或深度输入的情况下,能够实现优秀的导航性能且对后来的很多VLN工作——比如NaVILA 都有比较大的启发、借鉴意义,且VLN论文中 其实提供了 “不少更好理解NaVILA” 的背景知识或基础,比如VLN-CE总之,如果相对VLN有相对完整深入的理解,NaVid是必看工作之一加之导航在人形落地中的重要性,故 一方面,
2025-07-27 00:29:02
3565
4
原创 NaVILA源码解析——从其VLA部分到其low-level部分:涵盖legged-loco、rsl_rl
本文详细解析了NaVILA/legged-loco代码库的技术实现,重点包括: 机器人配置系统:深入剖析了Go1/Go2四足机器人和G1/H1人形机器人的基础与视觉增强配置,特别是H1机器人在复杂地形中的视觉感知实现差异。 核心MDP组件:解析了分层控制架构(10Hz导航决策+50Hz运动执行)、三种导航动作实现(基础、VLM、GPT增强)以及多维度奖励函数设计(稳定性、能效、目标导向等)。 强化学习框架: 完整实现PPO算法(包含GAE、KL自适应学习率、裁剪机制等核心特性) 支持多种Actor-Crit
2025-07-25 14:39:31
2965
4
原创 可语音流畅交互的OneTwoVLA——推理数据微调π0:一个模型中完成原来双系统下的慢思考、快执行,且能自适应推理和自我纠错
OneTwoVLA:统一视觉-语言-行动模型实现自适应推理与执行协同 本文提出OneTwoVLA模型,通过统一架构解决现有系统在推理与执行分离时产生的问题。该模型创新性地实现了:1)自适应切换推理与执行模式的能力;2)支持视觉-语言数据的联合训练提升泛化性;3)开发可扩展的合成流程自动生成16,000个具身推理数据样本。相比传统双系统框架,OneTwoVLA在错误检测恢复、人机交互和视觉定位等方面展现出显著优势,为构建更智能的机器人系统提供了新思路。
2025-07-23 18:59:01
3099
1
原创 Q-chunking——带有动作分块的强化学习:基于人类演示,进行一定的连贯探索(且可做到无偏的n步价值回溯)
UC伯克利提出Q-chunking方法,通过动作分块改进离线到在线强化学习。该方法在动作序列层面运行RL策略,预测并执行未来h步动作,利用时序差分训练评估器进行无偏的n步价值回传。研究显示,这种方法能加速价值传播、保持无偏估计,同时通过行为约束利用离线数据中的时序连贯动作序列,有效缓解探索难题。相比分层RL,Q-chunking简化了优化过程,在保持探索优势的同时提升了样本效率。相关代码和论文已在GitHub和arXiv公开。
2025-07-16 16:05:39
3574
原创 实时动作分块RTC——为解决高延迟,让π0.5也可以点燃火柴、插入网线:执行当前动作分块时生成下一个分块,且已执行的冻结 未执行的则补全
摘要 Physical Intelligence公司提出了一种实时动作分块技术(RTC),解决了视觉-语言-动作模型(VLA)在高精度任务中的延迟问题。该技术将异步动作分块建模为修补问题,在执行前一个动作块的同时生成下一个兼容的动作块,有效避免了传统分块方法在切换点产生的不连续性。RTC适用于基于扩散或流的可变长度动作模型,无需改变现有训练流程。实验表明,该方法能实现连续稳定的控制信号,支持如点燃火柴、插入网线等高精度操作任务,突破了VLA在实时控制中的性能瓶颈。该成果发表于2025年6月,为VLA在具身智
2025-07-15 16:43:07
4344
4
原创 π0.5的KI改进版——知识隔离:让VLM在不受动作专家负反馈的同时,输出离散动作token,并根据反馈做微调(而非冻结VLM)
本文解读π0公司提出的VLA(视觉-语言-动作)模型改进方法。针对传统VLA模型在引入连续控制模块(如动作专家)时易破坏预训练视觉语言模型(VLM)知识的问题,研究者提出"知识隔离"技术:通过切断动作专家梯度对VLM主干的传播,既保护预训练语义知识,又允许VLM通过离散动作token微调适配机器人任务。该方法兼具训练高效、推理实时(支持高频连续动作输出)和知识保留优势,相较混合自回归-扩散方案显著提升性能。文章还对比了动作分块表示、状态编码等关键技术
2025-07-10 12:18:12
2659
[第一部分]精选微软等公司数据结构+算法经典面试100题[1-40题]
2010-10-23
[第二部分]精选微软等公司结构+算法面试100题[41-60题]
2010-11-05
新鲜出炉:微软等数据结构+算法面试100题第81-100题[V0.1版最后20题]
2010-12-05
[汇总I]精选微软等数据结构+算法面试100题[第1-60题]
2010-11-12
数学建模10大算法详解+程序源码打包
2011-01-29
十三个经典算法研究PDF文档[带目录+标签]
2011-07-08
红黑树的c实现源码与教程
2011-01-03
[最新答案V0.4版]微软等数据结构+算法面试100题[第41-60题答案]
2011-01-04
结构之法 算法之道 第一期博文CHM文件集锦[版权所有,侵权必究]
2011-03-06
微软面试100题系列之高清完整版PDF文档[带目录+标签]by_July
2012-09-20
结构之法算法之道blog博文集锦第7期CHM文件
2012-07-29
读书会·北京第1期之DeepQA框架&Siri;架构PPT
2012-02-13
[最新整理公布][汇总II]微软等数据结构+算法面试100题[第1-80题]
2010-11-20
基于给定的文档生成倒排索引的全部源码
2012-01-10
最新十五个经典算法研究与总结之高清完整PDF文档[带目录+标签]by_July
2012-08-05
[开源分享]推荐一款界面超酷的Pocket PC 掌上电脑[源码下载]
2010-12-08
结构之法算法之道博文集锦最新第五期(July、10.31日制作)
2011-10-31
程序员编程艺术第一~三十七章集锦 高清完整PDF版
2013-12-10
程序员编程艺术第一 ~二十七章(教你如何编程)高清完整PDF版by_July
2012-04-25
[极品收藏]Windows 核心编程完整中文pdf版(上)
2010-10-25
[极品收藏]Windows 核心编程完整中文pdf版(中)
2010-10-25
[极品收藏]Windows 核心编程完整中文pdf版(下)
2010-10-25
[答案V0.1版]精选微软数据结构+算法面试100题[前25题]
2010-10-30
[总结]各大内部排序算法性能比较+程序实现
2010-11-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人