- 博客(299)
- 资源 (43)
- 收藏
- 关注

原创 一次性总结数十个具身模型(2024-2025):从训练数据、动作预测、训练方法到Robotics VLM、VLA(如π0等)
本文一开始是属于此文的前言的,但考虑到其重要性,加之那么大一张表格 看下来 阅读体验较差,故抽出取来独立成文且拆分之具身的论文解读过很多之后,便会发现整个今24年的具身模型/策略大概如下所示——目前全网独一份「(建议按照从下至上的顺序看,且,我后续也会不断完善之——毕竟还有很多并未囊括于下表中,如转载请于文章开头标明作者July及本文链接。
2025-02-01 15:20:33
7202
2

原创 机器人大小脑的融合——从微调VLM起步的VLA发展史:详解RoboFlamingo、Octo、TinyVLA、DexVLA
许多研究使用从机器人收集的大量轨迹数据集来训练策略这些工作主要集中在单一的embodiment上,而Octo则在跨多个体现组装的机器人数据集上训练策略,增加了训练数据集的有效规模,并允许对多种机器人设置进行微调最近,论文集中于扩展机器人策略的泛化能力。多项研究利用多样的非机器人数据或预训练的视觉-语言基础模型来提升策略对新场景和任务的泛化能力[86,103,96,16,38,11,84,36,4,37,7,3,46,15,23]
2024-12-01 23:51:14
7645
5

原创 π0——用于通用机器人控制的VLA模型:一套框架控制7种机械臂(基于PaliGemma和流匹配的3B模型)
在此文之前,我花了一天半,详细解读了清华这个机器人扩散大模型RDT,包括其每一个附录,并在上文中预告说:下一篇是一个3B的机器人大模型打通7种不同品牌的机械臂,这几个工作宣告机器人真正进入大模型时代故,本文来了。
2024-11-04 00:11:59
16250
15

原创 斯坦福通用人形策略iDP3——同一套策略控制各种机器人:改进3D扩散策略,不再依赖相机校准和点云分割
问题表述作者将人形操作任务表述为一个离散时间马尔可夫决策过程,由一个元组定义:,其中是状态空间,是动作空间,是转移概率,是奖励函数,是折扣因子,是初始状态分布在他们的背景下,S是捕捉机器人和物体状态的原始RGB-D观测空间,A是人形机器人运动指令的空间,R是稀疏奖励函数,当任务完成时返回1解决任务的目标是找到一个策略π,以最大化从µ中抽取的广泛初始配置在测试时的预期任务成功率那又什么叫做开放世界呢。
2024-10-23 17:25:32
8222
6

原创 一文通透想颠覆Transformer的Mamba:从SSM、HiPPO、S4到Mamba(被誉为Mamba最佳解读)
如本文开头所说,mamba论文的一作Albert Gu多年来一直在推动SSM的发展他在SSM的基础上,通过此篇论文《》首次提出了结构化状态空间S4(这里有关于S4的更多论文),但这篇论文的可读性比较差当然,作者在YouTube上有一个关于这篇S4论文的精彩解读,比S4论文的可读性提高很多,且本文中也应用了其中的部分PPT截图,但还可以更加通俗易懂。
2023-12-11 12:48:36
257180
309

原创 ChatGPT技术原理解析:从RL之PPO算法、RLHF到GPT4、instructGPT
本篇ChatGPT笔记会全力做到,通俗易懂且循序渐进(尽最大努力让每一个初学者哪怕是文科生都能没有障碍的读懂每一字一句、每一个概念、每一个公式)一方面,对于想了解ChatGPT背后原理和如何发展而来的,逐一阐述从GPT/GPT2/GPT3到强化学习、PPO算法,最后再到instructGPT、ChatGPT、SeqGAN且本文之前,99%的文章都不会把PPO算法从头推到尾,本文会把PPO从零推到尾,按照“RL-策略梯度-重要性采样(重要性权重)-TRPO(增加信任区域和KL散度约束)-PPO”的顺序逐步
2023-01-15 22:01:27
208728
139

原创 程序员面试、算法研究、机器学习、大模型/ChatGPT/AIGC、论文审稿、具身智能/人形机器人、RAG等16大系列集锦
程序员面试、算法研究、编程艺术、红黑树、机器学习5大经典原创系列集锦与总结作者:July--结构之法算法之道blog之博主。时间:2010年10月-2018年5月,一直在不断更新中..出处:http://blog.youkuaiyun.com/v_JULY_v。说明:本博客中部分文章经过不断修改、优化,已集结出版成书《编程之法:面试和算法心得》。前言开博4年有余,...
2020-01-05 20:42:56
762943
505

原创 CNN笔记:通俗理解卷积神经网络
2012年我在北京组织过8期machine learning读书会,那时“机器学习”非常火,很多人都对其抱有巨大的热情。当我2013年再次来到北京时,有一个词似乎比“机器学习”更火,那就是“深度学习”。本博客内写过一些机器学习相关的文章,但上一篇技术文章“LDA主题模型”还是写于2014年11月份,毕竟自2015年开始创业做在线教育后,太多的杂事、琐碎事,让我一直想再写点技术性文章但每每恨时间抽不开。然由于公司在不断开机器学习、深度学习等相关的在线课程,耳濡目染中,总会顺带着学习学习。
2016-07-02 22:14:50
883393
415

原创 支持向量机通俗导论(理解SVM的三层境界)
动笔写这个支持向量机是费了不少劲和困难的,原因很简单一者这个东西本身就并不好懂,要深入学习和研究下去需花费不少时间和精力二者这个东西也不好讲清楚,尽管网上已经有朋友写得不错了(见文末参考链接),但在描述数学公式的时候还是显得不够。得益于同学白石的数学证明,我还是想尝试写一下,希望本文在兼顾通俗易懂的基础上,真真正正能足以成为一篇完整概括和介绍支持向量机的导论性的文章本文在写的过程中,参考了不少资料,包括《支持向量机导论》、《统计学习方法》及网友pluskid的支持向量机系列等等,于此,还是一篇。
2012-06-01 22:48:43
1524369
807
原创 Fourier-Lerobot——把斯坦福人形动作策略iDP3封装进了Lerobot(含我司七月的idp3落地实践)
近期在抠lerobot源码时,看到其封装了ALOHA ACT、diffusion policy、π0时,我就在想,lerobot其实可以再封装下idp3我甚至考虑是否从我联合带的那十几个具身研究生中选几个同学做下这事,对他们也是很好的历练截止到,25年3.18日晚上,我把lerobot抠的差不多了,然后刚看到傅利叶fork了lerobot,并在fork的fourier-lerobot中,把idp3封装了进去,实在是卷啊..再加之工厂机械臂开发订单之外,我司近期接到的B端。
2025-03-22 23:58:46
1735
3
原创 GR00T N1——英伟达开源的通用人形VLA:类似Helix的快与慢双系统,且可类似ViLLA利用海量的无标注视频做训练
就在今天3.19日的凌晨,英伟达发布的GR00T N1还是很有含金量的(上午已有好几个朋友私我了),由此可以看到很多相关工作的影子,比如helix π0 LAPA,具体而言,其具有双系统架构至于昨晚计划的fourier-lerobot对idp3的封装解读,则作为这两天的第二篇顺便说个事,随着我司「七月在线」接的B端大客户具身订单越来越多了,非常缺人。
2025-03-20 00:28:26
2556
7
原创 LeRobot源码剖析——对机器人各个动作策略的统一封装:包含ALOHA ACT、Diffusion Policy、VLA模型π0
过去2年多的深入超过此前7年,全靠夜以继日的勤奋,一天当两天用,抠论文 抠代码 和大模型及具身同事讨论,是目前日常而具身库里,idp3 π0 lerobot值得反复研究,故,近期我一直在抠π0及lerobot的源码本文一开始是此文《LeRobot——Hugging Face打造的机器人开源库:包含对顶层script、与底层基础层dataset的源码分析》的第四部分,考虑到为避免该文的篇幅过长,故把该文的第四部分独立出来,成本文该模块包含以下策略该模块主要包含以下组件可能马上就有同学疑问了,那这个模块和π0的
2025-03-17 00:15:54
2528
3
原创 ViLLA——继AgiBot World之后,智元发布GO1及其背后基于潜在动作的VLA架构ViLLA:利用海量的无标注视频做训练(含LAPA、Moto的详解)
AgiBot World Colosseo,这是一个全栈式大规模机器人学习平台,旨在推动可扩展和智能化的体感系统中的双手操作研究。他们建造了一个总面积达4000平方米的设施,涵盖五个主要领域——家庭、零售、工业、餐厅和办公室环境——专用于在真实的日常场景中进行高保真数据收集AgiBot World从100个真实机器人收集了超过100万条轨迹,提供了前所未有的多样性和复杂性。它涵盖了超过100个现实场景,解决了诸如细粒度操作、工具使用和多机器人协同合作等具有挑战性的任务。
2025-03-11 17:32:14
3190
6
原创 对通用VLA π0的微调——如何基于各种开源数据集、以及私有数据集微调π0(含我司七月的微调实践及在机械臂上的部署)
25年2.4日,几个月前推出π0的公司Physical Intelligence (π)宣布正式开源π0及π0-FAST,如之前所介绍的,他们对用超过 10,000 小时的机器人数据进行了预训练该GitHub代码仓库包括4个方面:简言之,就是π0本身的代码和权重、特定平台上特定任务的微调checkpoint、推理代码、微调代码。
2025-03-09 00:14:26
3101
4
原创 π0源码剖析——从π0模型架构的实现(如何基于PaLI-Gemma和扩散策略去噪生成动作),到基于C/S架构下的模型训练与部署
ChatGPT出来后的两年多,也是疯狂写博的两年多,年初deepseek更引爆了下从曾经15年创业后每年2-6篇的,干到23年30篇、24年65篇,25年前两月18篇,成了我在大模型和具身的原始技术积累如今一转眼已到25年3月初,纪念这两年多,然近期和团队接了好几个大客户订单,使得3月起 不得不全力加速落地,自己也得每天抠paper、搞代码,今年可能没法像去年那样干65篇,不过,我还是争取保持月月更新。
2025-03-06 18:27:01
3594
10
原创 Helix——Figure 02发布的通用人形机器人控制VLA:不用微调即可做多个任务的快与慢双系统,让两个机器人协作干活(含清华HiRT详解)
过去一周,我花了很大的心思、力气,把deepseek的GRPO、MLA算法的代码解析通透,比如GRPO与PPO的详细对比,再比如MLA中,图片 公式 代码的一一对应2.20日晚,无意中刷到figure 02发布Helix的一个演示视频,再次大为震撼当时在朋友圈感叹到,我司在具身落地中,基本围绕:模仿学习 RL vla三条线,下面这个figure 02分门别类收纳进冰箱,应该vla的贡献程度最大(后来看了下技术报告,确实如此)
2025-02-21 14:22:48
5146
3
原创 R1-Zero与R1的复现之路——从Open-Reasoner-Zero到Open R1:先后涉及规则奖励下的PPO迭代,及SFT+GRPO的复现
根据R1的GitHub可知可以看到,R1并未开源关键的训练数据和训练代码,好在如此文《复现DeepSeek V3——在V3官方代码库对MoE、MLA的推理代码之外,补充我对多token预测MTP训练代码的实现》所说,有个Open R1的开源项目,本文便基于Open R1复现正式版的R1以下是本文的编写过程。
2025-02-17 17:29:26
5008
原创 MTP——我对DeepSeek V3中多token预测MTP的代码实现(含对V3官方MoE、MLA推理代码的解读)
虽然我司从23年起,便逐步从教育为主转型到了科技为主,但不代表教育业务便没有了随着DeepSeek特别是R1、其次V3模型的大火,我司七月在线的大模型线上营群里一学员朋友DIFY问道:校长好,deepseek 的课程目前有多少内容啦,我想要参与学习,想请问一下关于v3和r1复现的课程有吗,不用那么大参数量,小尺寸就好实话讲,我一开始确实没咋重点考虑R1和V3复现的问题,一来,想着毕竟人家开源了,二来,即便有诸如Open R1这种复现,但效果和原装的相比还是差太多但后来有三点改变了我的看法。
2025-02-13 15:45:02
4883
1
原创 一文通透Qwen多模态大模型:从Qwen-VL、Qwen2-VL到Qwen2.5-VL(含我司提问VLM项目的实现思路)
之所以关注到Qwen多模态大模型,是因为去年我司在实现提问VLM时(今年过年之前便已嵌入在七月在线官网教育层面的每一个视频中),当时面临两个模型的选择,一个是GPT4o,一个便是Qwen2-vl-72b最终因为后者的性价比更高,便选择了Qwen2-vl-72b。
2025-02-11 21:55:19
6894
原创 MLA实现及其推理上的十倍提速——逐行解读DeepSeek V2中多头潜在注意力MLA的源码(图、公式、代码逐一对应)
想来也是巧,最近deepseek实在是太火了,就连BAT这类大厂全部宣布接入deepseek,更不用说一系列国企、车企等各行各业的传统行业、企业都纷纷接入deepseek与此同时,也有很多公司、开发者对本地部署deepseek的诉求居高不下,我们也服务了一些B端客户,本文也提供了一些本地部署的方法结果,在网上看KTransformers资料的时候,无意中看到一篇帖子《DeepSeek-V2 高性能推理 (1):通过矩阵吸收十倍提速 MLA 算子》,让我关注到了DeepSeek-V2对MLA的实现。
2025-02-10 16:53:38
8199
1
原创 π0开源了且推出自回归版π0-FAST——打造高效Tokenizer:比扩散π0的训练速度快5倍但效果相当(含π0-FAST源码剖析)
最近,多项研究开发了通用机器人策略[这些策略是在越来越大的机器人学习数据集,比如52-Open-X上进行训练的训练通用策略的一种有前途的方法是视觉-语言-动作模型VLAs,包括且不限于10Rt-239-Openvla7-π063-Tinyvla11-GR-2这些模型是在互联网上规模庞大的图像和文本数据上预训练的,用于机器人控制使用具有数十亿参数的大型视觉-语言模型骨干,为拟合大型机器人数据集提供了必要的表达能力。
2025-02-06 21:25:22
7838
5
原创 一文速览DeepSeek-R1的本地部署——可联网、可实现本地知识库问答:包括671B满血版和各个蒸馏版的部署(含单卡4090部署671B)
自从deepseek爆火以后,真是应了“人红是非多”那句话,不但遭受各种大规模攻击,即便后来挡住了大部分攻击,但海内外大量闯入deepseek官网一探究竟的网友也把他们的服务器压得不堪重负导致一提问,要么频繁显示:服务器繁忙,请稍后再试,要么回答了 但无法联网,致使我朋友圈内一些不知情的朋友说:看把媒体给能的,各种瞎吹,但其实不过尔尔..怎么办呢?在huggingface上总共有以下几种参数的deepseek R1首先,看推理框架,目前主流的大模型推理框架主要有以下四种:其次,看硬件要求,很显然,不同参数的
2025-02-03 15:29:02
65743
23
原创 斯坦福UMI代码解析:刷盘机器人Universal Manipulation Interface代码的整体解读
本文一开始是属于此文《UMI——斯坦福刷盘机器人:通过手持夹爪革新数据收集方式,且使用Diffusion Policy预测动作》的第四部分,但为了把原理部分和代码解析更好的解耦,故把代码解析抽取出来了,独立成本文本解读基本来自我司大模型项目组的远根同学,之前之所以分享其中的部分出来,当时是想招纳可以针对UMI共同做二次开发的朋友。
2025-02-02 21:32:39
3812
原创 一文速览DeepSeekMoE:从Mixtral 8x7B到DeepSeekMoE(含MoE架构的实现及DS LLM的简介)
本文的前两部分一开始写于2023年12.23日,当时是属于此文《从Mistral 7B到MoE模型Mixtral 8x7B的全面解析:从原理分析到代码解读》的后半部分但2025年春节期间,deepseek火爆全球,其背后的MoE架构引发大量关注,考虑到MoE模型的重要性,特把MoE相关的模型独立成此文。
2025-01-31 18:18:32
9568
8
原创 一文通透让Meta恐慌的DeepSeek-V3:在MoE、GRPO、MLA基础上提出Multi-Token预测(含FP8训练详解)
他们的MTP策略主要旨在提高主模型的性能,因此在推理过程中,可以直接丢弃MTP模块,主模型可以独立正常运行此外,还可以重新利用这些MTP模块进行推测性解码,以进一步提高生成延迟// 待更。
2025-01-27 09:22:50
12171
12
原创 RoboVLM——通用机器人策略的VLA设计哲学:如何选择骨干网络、如何构建VLA架构、何时添加跨本体数据
前言本博客内解读不少VLA模型了,包括π0等,且如此文的开头所说前两天又重点看了下openvla,和cogact,发现总之,各种vlm + 各种动作预测头/方法,会出来很多vla当然,各种VLA我在本文的开头已经详细介绍过,可以参看《
2025-01-27 00:32:07
6352
5
原创 iDP3的人形遥操代码分析:从数据收集、数据转换到VR安装、人形机器人遥控
如此文《》的第三部分开头所说跑iDP3的整个流程分为:数据采集、数据转换、数据预处理,然后做训练、部署、可视化,具体而言,iDP3开源了两个代码仓库,一个是学习,一个是摇操作,其中对于后者,已经在这两篇文章里「」进行了详尽细致的分析,对于前者,则是本文。
2025-01-25 21:24:58
3988
原创 一文速览推理模型DeepSeek R1:如何通过纯RL训练以比肩甚至超越OpenAI o1(含Kimi K1.5、QwQ-32B的解读)
而DeepSeek-V3和Kimi K1.5的意义在于,即便它两和OpenAI o1的实现不一致(当然,也可能很大程度上一致) 也不是很重要的事情了,因为从结果的角度出发,它两的效果比肩甚至超越o1,单这一点 就足够了。没想到,DeepSeek-V3还没解读完,DeepSeek-R1又来了,而且几乎同一时期,Kimi K1.5也来了。有意思的在它两的技术报告里,很多指标都比肩甚至超越OpenAI的o1模型。因此,本文重点解读一下它两的技术报告。
2025-01-21 22:52:12
30305
11
原创 iDP3的训练与部署代码解析:从数据可视化vis_dataset.py、训练脚本train.py到部署脚本deploy.py
如此文《UMI——斯坦福刷盘机器人:通过手持夹爪革新数据收集方式,且使用DiffusionPolicy预测动作(含代码解读)》的开头所说,我司正在借助iDP3做通用化改写,使得一套策略控制各种机器人更改通讯脚本避免每来一套机械臂,就得比较费劲的写对应的通讯脚本至于的介绍详见此文实际改写时目标是去适配iDP3,从而借助iDP3达到对外通用化的目的相当于而关于iDP3的介绍,以及iDP3的learning代码在之前的文章都详细分析过了「前者详见,后者详见」,故本文侧重介绍iDP3的部署、训练、预处理。
2025-01-20 15:31:30
3579
4
原创 iDP3的Learning代码解析:逐步分解iDP3的数据集、模型、动作预测策略代码(包含2D和3D两个版本)
前言今25年1.14日起,我和同事孙老师连续出差苏州、无锡、南京、上海我们连连感慨,绝大部分工厂都将在今2025年开始做一系列智能升级、智能改造,包括且不限于线缆插拔、智能装配、打螺钉,而背后用的策略方法,也将从传统的深度学习方法,往大模型+模仿学习RL方面迁移,这是一股势不可挡的浪潮本想着这几天出差完后把ipd3的源码也做下解读,想了下,只要有时间空闲,我便开始解读吧,于此,今天便有了本文。
2025-01-16 16:54:46
3688
3
原创 一文速览CogACT及其源码剖析:把OpenVLA的离散化动作预测换成DiT,逼近π0(含DiT的实现)
近年来,配备视觉能力的机器人控制模型引起了广泛的兴趣,比如7-RT-1,8-RT-2-将7D动作分解为离散的token,并使用VLM PaLI-X [13]像语言token一样自回归地预测它们30-Openvla-采用和RT-2类似的方法,对动作进行tokenizing,并在Open-X-Embodiment数据集[48]上训练Prismatic VLM其中,大规模视觉-语言-动作(VLA)模型的发展[
2025-01-12 12:10:35
4053
原创 一文通透OpenVLA及其源码剖析——基于Prismatic VLM(SigLIP、DinoV2、Llama 2)及离散化动作预测
一个多月前,有朋友曾说,一个月内,π0 会开源来着,当时虽然觉得不太可能,但还是抱着期待可还是没开..没开源必然是有点遗憾,故这两天我一直在考虑、对比,看目前哪个vla最逼近π0,然后借鉴π0的思路,去改造该vla前两天又重点看了下openvla,和cogact,然后对此文增加了不少解读内容,且发现总之,各种vlm + 各种动作预测头/方法,会出来很多vla。
2025-01-11 22:25:54
7228
1
原创 RL微调VLA模型——从通过RLAIF微调的GRAPE,到通过在线RL改进的Re-VLA
过去的这两年,工作之余,我狂写大模型与具身的文章,加之具身大火,每周都有各种朋友通过优快云私我帮忙:要么是做科研想复现,要么是工厂想做自动化生产线的智能升级,要么是想通过机械臂/人形解决各种业务场景问题让我感慨:二零一一年,因为算法,首次有「天下无人不识君」的感觉,过去这两年,因为大模型和具身机器人,再次有了这感觉具身的论文解读过很多之后,便会发现整个具身的技能图谱大概如下所示(建议按照从下至上的顺序看)其中,action head有基于LSTM的基于diffusion model的。
2024-12-31 00:02:11
6936
1
原创 Diffusion Transformer(DiT)——将扩散过程中的U-Net换成ViT:近频繁用于视频生成与机器人动作预测(含清华PAD详解)
本文最开始属于此文《视频生成Sora的全面解析:从AI绘画、ViT到ViViT、TECO、DiT、VDT、NaViT等》但考虑到DiT除了广泛应用于视频生成领域中,在机器人动作预测也被运用的越来越多,加之DiT确实是一个比较大的创新,影响力大,故独立成本文在ViT之前,图像领域基本是CNN的天下,包括扩散过程中的噪声估计器所用的U-net也是卷积架构,但随着ViT的横空出世,人们自然而然开始考虑这个噪声估计器可否用Transformer架构来代替2022年12月,William Peebles(
2024-12-29 00:20:05
8190
2
原创 YAY Robot——斯坦福和UC伯克利开源的:人类直接口头喊话从而实时纠正机器人行为(含FiLM详解)
复杂的机器人任务可能需要多个单独的基础动作的序列。例如,如图1所示将多个物品装入袋子中需要依次抓取每个物体,将其移动到袋口附近,然后插入解决此类多阶段任务的一个常用框架是通过分层抽象,其中高级策略指挥具体行为,然后由低级策略执行这些行为 [36,68,69,18]
2024-12-24 14:46:24
3757
原创 从DINO、Grounding Dino到DINOv2、DINO-X——自监督视觉Transformer的升级改进之路(基于ViT)
前言之所以关注到DINOV2,原因在于我解读的多个具身机器人模型的视觉基座都用的它,比如不过,实话讲,DINO论文的可读性是真的不高,使得本次解读不易..总之,本文目前只是个初稿,后面还得花不少时间反复优化。
2024-12-21 23:49:35
6820
5
原创 一文速览mamba的各种变体与改进:从MoE-Mamba、Vision Mamba、VMamba、Jamba到Falcon Mamba
其实早在今年4月,我便在微博上说道:本月已经攒了好多篇博客待写,十之八九为项目需要,十之一二为课程需要今年快结束了,截止目前为止,前三篇都已写了,至于MOE模型也写了deepseek,但mamba的几个重要变体一直没来得及写,原因就太多了,比如直到近期,具身机器人发文的速度稍稍慢下来了(注意,只是稍稍),便有时间写一下之前计划已久的大模型相关的文章,包括本文要写的各种mamba变体或改进毕竟本文之前的mamba解读确实影响力大,加之基于mamba的变体或改进又层出不穷,故本文来了。
2024-12-07 23:57:06
7665
原创 一文通透vLLM与其核心技术PagedAttention:减少KV Cache碎片、提高GPU显存利用率(推理加速利器)
众所周知,运行GPT这样的大模型应用非常昂贵,需要大量的硬件加速器,如GPU「我司过去半年做了一系列大模型应用,比如基于大模型的论文审稿、翻译、修订、对话、idea提炼,对此深有感触根据最近的估算,处理一个LLM请求的成本可能是传统关键词查询的10倍[43]。鉴于这些高昂的成本,提高吞吐量——从而降低成本——变得尤为重要。
2024-12-03 23:46:53
6776
原创 斯坦福泡茶机器人DexCap源码解析:涵盖收集数据、处理数据、模型训练三大阶段
它可以捕捉颜色图像、深度图像、姿态数据以及手部关节数据,并将这些数据保存到指定的目录中首先,导入库"""示例用法"""import argparse # 用于解析命令行参数import copy # 用于复制对象import numpy as np # 用于数值计算import open3d as o3d # 用于3D数据处理import os # 用于操作系统相关功能。
2024-11-10 00:10:38
4725
原创 Diffusion Policy——斯坦福UMI所用的动作预测算法:基于扩散模型的扩散策略(从原理到其编码实现)
所谓扩散策略,是指将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法,如下图所示a)具有不同类型动作表示的显式策略(b)隐式策略学习以动作和观察为条件的能量函数,并优化能够最小化能量景观的动作c)通过“条件去噪扩散过程在机器人行动空间上生成行为”,即该扩散策略策略不直接输出一个动作,而是推断出「基于视觉观察的动作-评分梯度」,进行K次去噪迭代。
2024-11-09 21:53:57
11864
7
程序员编程艺术第一~三十七章集锦 高清完整PDF版
2013-12-10
微软面试100题系列之高清完整版PDF文档[带目录+标签]by_July
2012-09-20
最新十五个经典算法研究与总结之高清完整PDF文档[带目录+标签]by_July
2012-08-05
结构之法算法之道blog博文集锦第7期CHM文件
2012-07-29
程序员编程艺术第一 ~二十七章(教你如何编程)高清完整PDF版by_July
2012-04-25
读书会·北京第1期之DeepQA框架&Siri;架构PPT
2012-02-13
基于给定的文档生成倒排索引的全部源码
2012-01-10
结构之法算法之道博文集锦最新第五期(July、10.31日制作)
2011-10-31
十三个经典算法研究PDF文档[带目录+标签]
2011-07-08
结构之法 算法之道 第一期博文CHM文件集锦[版权所有,侵权必究]
2011-03-06
数学建模10大算法详解+程序源码打包
2011-01-29
[最新答案V0.4版]微软等数据结构+算法面试100题[第41-60题答案]
2011-01-04
红黑树的c实现源码与教程
2011-01-03
[开源分享]推荐一款界面超酷的Pocket PC 掌上电脑[源码下载]
2010-12-08
新鲜出炉:微软等数据结构+算法面试100题第81-100题[V0.1版最后20题]
2010-12-05
[最新整理公布][汇总II]微软等数据结构+算法面试100题[第1-80题]
2010-11-20
[汇总I]精选微软等数据结构+算法面试100题[第1-60题]
2010-11-12
[第二部分]精选微软等公司结构+算法面试100题[41-60题]
2010-11-05
[总结]各大内部排序算法性能比较+程序实现
2010-11-01
[答案V0.1版]精选微软数据结构+算法面试100题[前25题]
2010-10-30
[极品收藏]Windows 核心编程完整中文pdf版(下)
2010-10-25
[极品收藏]Windows 核心编程完整中文pdf版(中)
2010-10-25
[极品收藏]Windows 核心编程完整中文pdf版(上)
2010-10-25
[第一部分]精选微软等公司数据结构+算法经典面试100题[1-40题]
2010-10-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人