- 博客(20)
- 收藏
- 关注
原创 RL机器人 数据 九
4 交互后返回rew_buf,然后cur_reward_sum += rewards,cur_reward_sum 其中目的是记录每个环境的agent的生存期间的累计的所有奖励。5 rewbuffer是一个长度100的队列,是存储了过去100个已经终止的环境,在每个环境的agent从生存到终止的时间内所获得的所有奖励的和。:是一个字典,每个字典的key对应value形状是(num_envs),字典的key的数量取决于有多少个奖励函数。从step()函数进入 ,一次MDP过程后,看看只针对奖励,做了什么。
2025-02-26 11:56:13
201
原创 RL 机器人 sim2sim 八
仅记录,谨慎参考。与训练时给定的环境差不多,进行一些简单的修改。例如:地形,噪声,是否Push,走几个环境,指令等等。
2024-12-15 17:37:49
212
原创 RL 机器人 训练理解问题 十
会导致动作的平滑性下滑,同时策略的部分假设可能不成立(对某一时刻,策略还是按照100HZ的控制方式给出100HZ下的新的动作,让一个关节0.01s才期望到达的位置,让其0.002s到达,可能会有很大的区别)。如果观测中用到了上次的动作,那么认为应该将第7步之后的动作作为last_action ,作为一个描述上次的动作值,并不限定同样的量纲,仅作为变量形式的参数。(尽管改的是状态的稠密度,不是广度)。也就是说,并行环境并不影响训练的迭代次数,不影响训练的理论时间,影响ep的长度,进而影响训练的质量。
2024-12-11 16:36:51
926
原创 isaacLab 机器人 运行 五
原代码感觉比较乱和不完善,在管理器方式中,并没有给出噪声的配置和运行。需要按direct方式中,自己在cfg文件中定义,ManagerBasedRLEnvCfg中添加相应的运行代码,如下方式。
2024-11-17 21:29:59
413
原创 isaacLab 机器人学习记录 二
以倒立摆为例.目录:source/extensions/omni.isaac.lab_tasks/manager_based/classic/cartpole。
2024-11-10 17:34:15
646
原创 adams驱动与测量, 与matlab 多形式拟合
1 对转动副添加驱动,右键两次选择具体关节,选择驱动函数,及随时间变化关系。4 点击后处理,选择测量中的值,浏览,文件保存为表格(设定路径),htm格式。2 测量:选择连接关节,测量不同值。3 点击仿真,设定仿真时间和步长。
2023-09-17 17:54:16
1020
1
原创 C++计算时间
结果:在循环1亿次:单位(秒)5个三角函数相乘:22.784。单个三角函数:4.648。I的5次方: 0.12。空循环:0.0465。
2023-09-16 11:13:37
398
1
原创 android 开发第一部分 kotlin Jetpack compose 开发JOG界面
【代码】android 开发 kotlin Jetpack compose 开发JOG界面。
2023-09-10 21:36:58
314
1
原创 机器狗开发——keil 建模及任务发送-到达指定点
指令层:用在freeRTOS 中进行任务调度 如何到达一个点。bc_hal 是输入及输出。输入为电机参数,输出为电机编码器等参数。
2023-08-22 20:21:42
204
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人