
RL 机器人代码
文章平均质量分 70
机器人 强化学习 代码
NameHello
这个作者很懒,什么都没留下…
展开
-
AMP算法Adversarial MotionPriors,AMP
增加一个鉴别器,用来判断状态转移(st,st+1)是数据集的,还是机器人策略生成的,然后给出一个奖励加到总奖励里,让策略训练的输出动作导致的环境状态转移,变得和数据集一样无法区分,从而实现按数据集的风格来执行任务。原创 2025-05-29 23:26:14 · 852 阅读 · 0 评论 -
WBC理论及人形WBC代码详解
WBC理论及青龙WBC。原创 2025-03-01 16:17:03 · 1312 阅读 · 0 评论 -
RL 机器人 sim2sim 八
仅记录,谨慎参考。与训练时给定的环境差不多,进行一些简单的修改。例如:地形,噪声,是否Push,走几个环境,指令等等。原创 2024-12-15 17:37:49 · 511 阅读 · 0 评论 -
RL 机器人 训练理解问题 十
会导致动作的平滑性下滑,同时策略的部分假设可能不成立(对某一时刻,策略还是按照100HZ的控制方式给出100HZ下的新的动作,让一个关节0.01s才期望到达的位置,让其0.002s到达,可能会有很大的区别)。如果观测中用到了上次的动作,那么认为应该将第7步之后的动作作为last_action ,作为一个描述上次的动作值,并不限定同样的量纲,仅作为变量形式的参数。(尽管改的是状态的稠密度,不是广度)。也就是说,并行环境并不影响训练的迭代次数,不影响训练的理论时间,影响ep的长度,进而影响训练的质量。原创 2024-12-11 16:36:51 · 973 阅读 · 0 评论 -
RL 机器人 --PPO算法代码() 六
这里我们找到最重要的一行,注册。原创 2024-11-26 21:50:46 · 1179 阅读 · 0 评论 -
isaacLab 机器人 运行 五
原代码感觉比较乱和不完善,在管理器方式中,并没有给出噪声的配置和运行。需要按direct方式中,自己在cfg文件中定义,ManagerBasedRLEnvCfg中添加相应的运行代码,如下方式。原创 2024-11-17 21:29:59 · 552 阅读 · 0 评论 -
isaacLab 机器人学习记录 二
以倒立摆为例.目录:source/extensions/omni.isaac.lab_tasks/manager_based/classic/cartpole。原创 2024-11-10 17:34:15 · 775 阅读 · 0 评论 -
isaacLab 训练机器人 一
isaac_lab 机器人 RL原创 2024-11-10 16:34:46 · 751 阅读 · 0 评论 -
IsaacLab 机器人 四
仅记录,谨慎参考。原创 2024-11-16 16:07:06 · 431 阅读 · 0 评论 -
isaacLab 机器人学习 三
水平有限,谨慎参考。原创 2024-11-13 14:20:17 · 2472 阅读 · 0 评论