- 博客(93)
- 收藏
- 关注
原创 Learning Smooth Humanoid Locomotion through Lipschitz-Constrained Policies
引入Lipschitz-Constrained Policies(LCP),一种通用且可微的方法,用于鼓励RL策略发展平滑的行为。LCP通过可微的梯度惩罚在策略的输出动作与输入观察之间施加Lipschitz约束。此外,这些平滑度奖励是不可微的,因为它们是作为基础环境的一部分来实施的。而这项工作提出一种基于Lipschitz连续性的简单且可微的平滑度目标,用于策略优化。Lipschitz约束策略是一种通过在训练过程中引入Lipschitz约束来训练产生平滑行为的策略方法。是Lipschitz连续的。
2025-06-08 16:47:54
1001
原创 HumanMimic: Learning Natural Locomotion and Transitions for Humanoid Robot via Wasserstein Adversari
首先,介绍了一种统一的基本骨架动作目标转移方法,以解决任意人类示范者和人形机器人之间的形态差异。利用Wasserstein-1距离的强大功能,并引入了一种新颖的软边界约束,以确保稳定的训练动态并防止生成的动作收敛到一组有限的简单模式。学习到的单一策略展示了多种稳健且自然的运动模式,包括站立、推回恢复、蹲走、类似人类的直腿走、动态跑步以及对速度命令变化的无缝过渡。为将参考运动转移到机器人上,某些重定位方法同时考虑了运动学和动力学约束,需要准确的动力学建模或复杂的平衡控制器。,推导出骨架中每个关节的全局位置。
2025-06-07 13:47:57
541
原创 Benchmarking Potential Based Rewards for Learning Humanoid Locomotion
观测值如表所示,并添加均匀采样噪声。相位ϕ\phiϕ是一个简单的时钟,以每秒一次的恒定速度增加。
2025-06-06 18:13:42
861
原创 Sim-to-Real Learning of All Common Bipedal Gaits via Periodic Reward Composition
摆动相和支撑相之间的一个基本区别在于,对于给定的脚,摆动相中存在脚力和脚速度,而支撑相中不存在。我们可以基于这一观察,通过使用脚力和速度的大小来创建原理性的奖励函数,使得在摆动相中,力被惩罚而速度被允许,促使策略学习抬起脚。例如,在行走行为中,摆动相和支撑相的时间间隔相差一个周期长度的一半(一条腿在摆动,另一条腿在支撑),而在跳跃行为中,两只脚同步进入摆动相和支撑相。为简化期间,首先描述反复抬起和放置一只脚,或者说,通过本文框架在摆动相和支撑相之间循环,作为相位奖励的策略,选择足部力的范数。
2025-06-05 15:34:35
856
原创 Whole-body Humanoid Robot Locomotion with Human Reference
为确保具有相似状态转移的机器人能够执行相似的运动风格,选择输入判别器的观测值至关重要。AMP损失函数指导判别器对样本进行评分,对于真实的参考动作给出接近+1的分数,而对于由策略生成的动作则接近-1。策略的目标是生成足够逼真的动作,使判别器给出更高的分数,以此展示其接近模仿参考动作的能力。介绍了全新的人形机器人Adam,并提供新的方法和实验验证,用于人形机器人的学习、适应和优化,为人形机器人研究和开发开辟了一条新途径。为获得更自然的步伐风格,计算脚速度、高度差以及摆动相位中的对称性的奖励。
2025-05-29 20:14:29
763
原创 Natural Humanoid Robot Locomotion with Generative Motion Prior
为高效地利用人类运动数据来引导人形机器人学习自然行走,提出生成运动先验(GMP),该方法利用生成模型在线合成类人的参考运动轨迹,并为自然行走行为提供粒度指导信号。为鼓励类人的机器人运动,引入了几种运动指导奖励,以在运动级别提供精细且密集的指导,包括关节角度和关键点位置。给定从人类数据中重定位的自然机器人动作,引入生成运动先验,该先验学习预测未来的人形机器人运动轨迹,以指导人形机器人行走。在机器人运动生成的自回归过程中,未来的运动轨迹通过从潜在空间中随机采样来预测,导致参考运动的多样但不可控的速度。
2025-05-28 15:29:46
607
原创 Distillation-PPO A Novel Two-Stage Reinforcement Learning Framework for Humanoid Robot Perceptive Lo
由于状态转移由学生策略的当前状态和输出动作决定,这导致了教师和学生之间的差距,降低了教师的有效性。为了解决这个问题,提出了一种新的教师-学生框架,该框架使用强化学习,在教师监督信号的基础上继续探索空间。在第一阶段,在一个完全可观测的马尔可夫决策过程中训练一个教师策略,并使用蒸馏方法将先验信息转换为潜在特征或动作来监督学生策略的学习。在第二阶段,在一个部分可观测的马尔可夫决策过程中训练学生策略,将教师策略的监督信号与强化学习奖励结合起来,进一步提高学生策略的性能。分别是左腿和右腿在周期中的偏移。
2025-05-27 15:12:32
714
原创 BeamDojo: Learning Agile Humanoid Locomotion on Sparse Footholds
为应对复杂地形动力学中的早期终止问题并促进全面的试错探索,设计两阶段强化学习(RL)方法,用于仿真中的地形感知运动。在第一阶段,称为“软地形动力学约束”阶段,人形机器人在平坦地形上进行训练,并提供对应的真实任务地形的高度图。在第二阶段,称为“硬地形动力学约束”阶段,继续在仿真中对人形机器人进行真实地形的训练,其中错误的步伐会导致终止。在第一阶段,地形动力学约束被放宽,允许人形机器人在平坦地形上练习行走,同时接收目标任务地形的感知信息,其中失误会受到惩罚但不会终止回合。在第二阶段,策略在真实任务地形上微调。
2025-05-21 20:02:28
1016
原创 Ubuntu20.04安装使用ROS-PlotJuggler
此时回到Plotjuggler界面右侧仍然是空白的,但是左下角Timeseries List中有一个test,点开后有data,拖动data至右侧曲线框内,显示曲线,数值为0.5,并且横坐标在滚动。然后点击Start,若此时只是启动了ROS但是没有其它ROS代码及其消息发布,只会显示/rosout和/rosout_agg两个消息。此时Select ROS messages界面出现一个话题名称为/test的消息,选择这个消息,并点击右下角的OK按钮。只有点击左侧的Stop,才可放大右侧曲线查看数据。
2025-05-07 22:22:33
711
原创 Ubuntu20.04安装NVIDIA Warp
建议安装前先参考readme文件自检系统驱动和cuda是否支持,个人实测建议是python3.9+,但python3.8.20也可以使用。
2025-04-30 12:41:37
575
原创 Adversarial Motion Priors Make Good Substitutes for Complex Reward Functions
策略网络采用[512,256,128]维度的MLP结构,激活函数为ELU。网络输出目标关节角度的均值和方差,以30Hz的频率更新。而该文采用德国牧羊犬动捕数据,包含踱步、小跑、慢跑和原地转向等短片段,将运动重定向至A1四足机器人形态:通过逆运动学计算关节角度、正运动学推算末端执行器位置;通过该奖励函数训练可获得高度可控的机器人运动能力,使控制器展现不同速度的步态行为。通过学习获得的风格奖励可与任意任务奖励结合,训练出采用自然策略执行任务的策略。的状态,从中采样的状态转移作为真实样本训练判别器。
2025-04-28 11:05:06
1090
原创 Advanced Skills through Multiple Adversarial Motion Priors in Reinforcement Learning
后者使真实机器人无需繁琐的奖励函数调参即可自动发现可行坐姿动作,从而实现轮腿式机器人在四足与人形构型间切换的卓越技能。该任务信息被包含在策略的观测空间中,本质上告知智能体需执行的具体动作。任务奖励的计算基于策略执行指令的表现,即。中提出多种运动风格,并具有主动切换风格的能力。与基于跟踪的方法不同,该策略不应盲目遵循特定动作,而是提取并应用运动的底层特征以完成任务。任务奖励描述做什么,风格奖励描述怎么做。若目标技能缺乏运动数据但需与其他基于运动数据的技能协同训练,可对Multi-AMP稍作调整。
2025-04-28 09:22:29
1014
原创 AMP - Adversarial Motion Priors for Stylized Physics-Based Character
给定构成目标风格的参考动作集,动作先验被建模为对抗判别器,经训练可区分数据集行为与角色生成行为,从而作为衡量角色动作与数据集相似度的通用指标。给定参考动作数据集和由奖励函数定义的任务目标,系统可合成控制策略,使角色在物理仿真环境中实现任务目标,同时生成与数据集动作风格相似的行为。因此,风格目标作为任务无关的动作先验,独立于具体任务对给定动作的自然度或风格进行先验评估,进而激励策略生成与数据集行为相似的动作。策略输出的动作为角色各关节的比例微分(PD)控制器指定目标位置,进而产生驱动角色运动的控制力。
2025-04-14 09:01:45
581
原创 DeepMimic Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills
此策略成为参考状态初始化(RSI)。通过从参考动作中采样初始状态,智能体在策略尚未掌握到达这些状态所需的熟练度之前,就能接触到动作轨迹上的理想状态。与仅通过奖励函数获取参考动作信息不同,RSI可被理解为额外的信息通道——通过更具信息量的初始状态分布形式,使智能体能够获取参考动作中的信息。系统由一个角色模型、一组运动学参考动作和一个由奖励函数定义的任务作为输入,然后设计一个控制器,使角色能够模拟参考动作,同时满足任务目标。系统的最终输出是一个策略,使模拟角色既能模仿参考动作的行为,又能完成指定的任务目标。
2025-04-08 10:40:09
826
原创 Learning Getting-Up Policies for Real-World Humanoid Robots
第一阶段的目标是在较为简单的环境中完成任务(弱正则化的稀疏任务奖励),而第二阶段解决的任务则是使学习到的动作可部署(即控制应平滑;具体来说,第一阶段是为运动发现而设计的,不受运动平滑度或速度/扭矩的限制,在任务奖励稀少和指定不足的情况下完成一项艰巨的任务,且在确保任务完成方面受到的限制较少。第二阶段经过优化,可以跟踪第一阶段发现的状态轨迹,从而以密集的跟踪奖励实现更容易的运动跟踪,该阶段采用严格的Sim2Real正则化。鼓励机器人双脚站立;,用于鼓励机器人跟踪头部的高度和投影重力,以完成起身和翻身任务。
2025-03-31 11:36:53
943
2
原创 Learning Humanoid Standing-up Control across Diverse Postures
为实现超出地面的姿势自适应运动,引入多个训练地形以及在初始阶段的垂直拉力以促进探索。并使用多Critic独立优化不同的奖励,实现奖励平衡。为此,使用多Critic独立估计每个奖励组的回报,每个奖励组被视为一个单独的任务,并为其分配一个Critic网络。当机器人的躯干达到近乎垂直的朝向时,该力才会生效,表名机器人成功实现了地面跪姿。机器人本体感知为目标环境中站立控制提供了足够的信息,因此,将从机器人IMU和关节编码器读取的本体感知信息包含在状态设计中。,不同阶段由机器人基座的高度区分。通过独立计算优势函数。
2025-03-31 08:59:32
1177
原创 ANYmal Parkour: Learning Agile Navigation for Quadrupedal Robots
在每个高级时间步长内,导航策略会接收最终目标的相对位置、完成任务的剩余时间、机器人的基本速度、方向和感知模块的潜变量。为了加快收敛速度,首先将全局目标放在靠近机器人起始位置的地方,然后随着奖励的增加,将它们移到地形上更远的地方。基于最先进的地图构建、规划和运动方法,机器人被训练在环境中导航和移动,以到达特定的目标位置。虽然导航模块接收完整的3D地图表示,但由于其高更新率和相应的训练计算成本,这在运动策略中是不切实际的。在每个被占用的体素中,特征描述了落入该体素内的点的质心位置。
2025-03-25 20:36:16
1037
原创 Learning Perceptive Humanoid Locomotion over Challenging Terrain
其训练同时受到解码器的重构损失和模仿损失的驱动,后者鼓励与教师的动作对齐,从而提高输入质量和最终的控制效果。,分别为机器人root的高度、机器人本体的局部位置、机器人本体的局部旋转角、机器人本体的局部角速度、机器人本体的线速度和角速度、机器人身体的接触力、关节位置、关节速度和上一帧的动作,最后。为弥合Sim2Real的Gap并增强策略的稳健性,实现了一个全面的域随机化框架,该框架考虑了传感器噪声和地形的形变。Oracle策略的观测值包含了仿真中可获得的信息,以最大化Oracle策略的性能。
2025-03-25 16:30:53
993
原创 Learning Humanoid Locomotion with Perceptive Internal Model
在机器人Z轴与重力负方向对齐的框架中采样96个点,这些点在以机器人为中心的正方形内分布,这些点相对于base link的Z轴方向相对坐标被用作感知输入。还希望机器人的脚与地面平行,因此使用了一个名为脚底地面平行的奖励函数,在每个机器人的脚上添加五个采样点,分别表示前、中、后、左、右,然后对这些采样点到地面的距离的方差进行惩罚。:在每一帧中,本体感知信息和外部感知信息输入至PIM中,获取机器人的线速度估计值和隐变量,该隐变量用于预测机器人下一帧的本体感知信息。在策略优化之后,将使用收集到的轨迹优化PIM。
2025-03-15 14:16:06
775
原创 HOMIE: Humanoid Loco-Manipulation with Isomorphic Exoskeleton Cockpit
HOMIE由底层策略。
2025-03-14 11:12:10
706
原创 HWC-Loco: A Hierarchical Whole-Body Control Approach to Robust Humanoid Locomotion
HWC-Loco: A Hierarchical Whole-Body Control Approach to Robust Humanoid Locomotion提出了Hierarchical Whole-body Control for Robust Humanoid Locomotion方法,学习能够在不同部署环境中动态权衡性能最大化和保障安全性的控制策略。该方法包括目标跟踪策略和安全恢复策略,目标跟踪策略旨在遵循特定任务命令(例如移动速度和方向),并且学习到的策略能够有效遵循类人行为模式,确保与人类
2025-03-13 19:54:20
1128
原创 Symmetry Considerations for Learning Task Symmetric Robot Policies
此外,从实验中发现,在初始化权重足够小且更新有界的情况下,随机初始化的策略可以忽略概率比项。:在强化学习中自然的对称增强方法是将收集到的轨迹与其对称样本一起增强。然而,直接使用对称样本可能导致策略梯度计算方差高,因为对称样本的分布与原策略不同。概念上,可以这样理解:当观察到从给定状态 s 执行特定动作 a 后获得高回报时,希望在未来增加选择该动作的概率。公式表明,对称后的样本保持了原始样本的动作概率。而对于非完美对称的策略,而且很多公式都是很直接的推出,博客中描述的公式并不全面,更全的描述请参考原文。
2025-03-13 12:44:09
845
原创 Ubuntu conda虚拟环境不同设备之间迁移
在一台电脑配置好conda虚拟环境后,若在其它电脑需要同样的环境,可通过如下两种方式进行迁移。
2025-03-12 21:22:16
1513
原创 WoCoCo: Learning Whole-Body Humanoid Control with Sequential Contacts
阶段计数奖励是基于已完成的接触阶段数量提出的,促进机器人探索更多的阶段以最大化累积奖励,从而减轻由于RL策略战略性地停留在当前阶段以避免潜在失败而导致的短视问题。好奇心在促进探索方面非常强大且稳定,即使是在不同的具有挑战性的全身任务中,对任务无关的好奇心观察也是如此。其中接触奖励细化了接触状态达到奖励、阶段计数奖励激励在多个接触阶段进行探索、好奇心奖励进一步促进了状态空间的探索。密集接触奖励:每个接触奖励通过在任务目标完成时估计正确的接触,并通过额外奖励每个正确的接触同时惩罚每个错误的接触。
2025-03-12 20:34:17
1437
原创 Embrace Collisions: Humanoid Shadowing for Deployable Contact-Agnostics Motions
为基于运动指令序列训练人形运动,同时保留足够的灵活性以控制策略,仅在预期的运动目标帧将达到时计算运动目标奖励。然而,这些正则化项是密集的,而运动目标奖励是稀疏的。:使用基于Transformer的运动参考编码器,并在运动目标序列中添加状态目标,防止在所有运动目标运行结束时出现数据错误。运动目标表示为运动目标刷新时一系列的关节位置、link目标位置和目标基座变换,结合从目标运动刷新到特定帧的时间间隔。,计算当前机器人基坐标系下的机器人基座运动目标,并使用正运动学计算机器人基坐标系下的link目标位置。
2025-03-12 11:11:10
1148
原创 ASAP: Aligning Simulation and Real-World Physics for Learning Agile Humanoid Whole-Body Skills
(采用4-DoF而非全身自由度的原因在于:真实世界数据的有限可用性使得训练完整的 23-DoF delta 动作模型变得不可行,以及Unitree G1 机器人在脚踝处采用机械联动设计,这引入了一个明显的Sim2Real差距,这是传统建模技术难以弥合的。具体而言,对0~1之间的时间阶段变量进行随机采样,根据该阶段的相应参考运动初始化机器人的状态,包括机器人本体位置和方向、线速度、角速度、关节位置和关节速度。完成每个运动跟踪任务后,运动策略将执行接管,以保持机器人平衡,直到下一个运动跟踪任务开始。
2025-03-11 21:49:27
1188
原创 ExBody2: Advanced Expressive Humanoid Whole-Body Control
动作的多样性对于挑战和增强机器人的适应性和对实际应用的准备至关重要,尤其是响应意外场景的灵活性。具体而言,CVAE根据历史M帧的运动信息合成未来H帧的运动信息,包括关节位置、机器人本体姿态、速度和角速度。提出高表达性全身控制(ExBody2),该框架可以最大限度地提高人形机器人上可行的全身运动的表现力。该框架属于Sim2Real,策略将参考运动作为输入,输出控制真实人形机器人在现实世界中执行运动的动作。然后,将特权信息替换为与现实世界一致的观测值,并将教师策略提炼为可部署的学术策略。
2025-03-11 21:38:14
717
原创 Humanoid Whole-Body Locomotion on Narrow Terrain via Dynamic Balance and Reinforcement Learning
Humanoid Whole-Body Locomotion on Narrow Terrain via Dynamic Balance and Reinforcement Learning极端条件下的动态平衡方面,人形机器人的运动能力远远落后于人类。当面临滑倒或踩空边缘等情况时,人类可以迅速调整脚部位置和质心,从而恢复平衡。相比之下,当前基于 RL 的控制器缺乏这种能力,主要是因为它们依赖于周期性步态或运动基元,这些方法在不稳定时刻无法实现快速和多样的步态调整。提出了在极端场景下的全身运动强化学习框架,名
2025-03-11 21:30:46
862
原创 VSCode调试Python程序
搜索python,安装python和python debugger。接着选择Python Debugger,选择Python文件。成功时代码会运行直至停止在打断点处,并且有黄色底纹。点击vscode左侧导航栏图标,点击运行和调试。点击vscode右下角的选择解释器。选择你自己需要的解释器。
2025-03-07 19:32:57
335
原创 Ubuntu20.04本地配置IsaacLab 4.5.0的训练环境(二):训练与推理
写在前面,在参考本页面执行训练与推理时,应参考完成IsaacLab 4.5.0的配置。
2025-03-06 20:56:03
446
原创 Ubuntu20.04本地配置IsaacLab 4.5.0的训练环境(一)
而后,在./local/share/ov/pkg/isaac-sim-4.5.0/apps/isaacsim.exp.base.kit文件中添加((比如我则是在home目录下创建了isaaclab文件夹,其中创建了4-5-0子文件夹,后续我都会以这个文件夹来说明,在**./local/share/ov/pkg/目录下创建文件夹isaac-sim-4.5.0**,将安装包。点击SATRT即启动IsaacSim,第一次启动会比较慢,等候即可。若运行过程中除了ROS2报错外无其它错误,点击如图所示的按钮,若。
2025-03-06 18:41:22
1418
原创 Ubuntu20.04本地配置IsaacLab 4.2.0的G1训练环境(二):训练与推理
写在前面,本文档的实现需要IsaacLab的成功安装,可参考。
2025-03-04 22:01:01
449
7
原创 Pycharm配置ROS开发环境
在右侧的添加内容根处找到/opt/ros/noetic/lib/python3/dist-packages进行添加,然后点击右下角的应用和确定即可。首先,打开一个python项目,然后点击导航栏的。对于不同的ROS版本,操作方法通用。
2025-03-04 21:51:09
350
原创 Ubuntu20.04本地配置IsaacLab 4.2.0的G1训练环境(一)
配置资产包,在IsaacLab的启动界面中,在下方导航栏的Content中找到Omniverse/localhost/Library,在Library目录下创建NVIDIA文件夹(若不存在NVIDIA),并在NVIDIA文件夹内添加下载的Assets资产包到该位置(右键Upload Files or Folder)。该命令的目的是用于指定默认的资产路径。(对于这一步,跟之前的版本有所不同,之前不存在外部链接,而是直接安装。这里,账户的创建建议用admin,密码admin(其他也可以),其他自行填写。
2025-03-04 20:38:36
1632
8
原创 Ubuntu20.04本地配置IsaacGym Preview 4的G1训练环境(二):训练与推理
【代码】Ubuntu20.04本地配置IsaacGym Preview 4的G1训练环境(二):训练与推理。
2025-03-04 16:16:17
570
原创 Ubuntu20.04双系统安装及软件安装(十三):录屏软件kazam
安装完成后,在菜单栏的所有程序中能找到一个类似于照相机的图标,即是kazam。界面非常简单,一看就会使用。
2025-03-04 16:04:01
584
原创 Ubuntu20.04本地配置IsaacGym Preview 4的G1训练环境(一)
至G1目录下,对于这一步的下载,与rsl_rl同样的操作(加入前缀后的git网址为https://kkgithub.com/unitreerobotics/unitree_rl_gym?安装pytorch2.3.1,请注意,torch和cuda、cudnn的版本都是一一匹配的,因此,在安装之前需要先查阅。(https://github.com/leggedrobotics/rsl_rl),可直接进入。请注意,你能够使用GPU启动,而不是CPU(这一步可在终端中查看到)。至G1目录下,对于这一步,直接。
2025-03-04 15:57:17
1091
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人