Gym-Fetch-Robotics-obs-reward解析
前言
简单介绍:

一共八个环境,但是它的dense-reward,都简单的离谱。
就直接计算:
-np.linalg.norm(object_pos- goal_pos, axis=-1)
这不是离谱嘛,任务完成得靠三个值的配合:
gripper_pos: move by step action.
object_pos: move by gripper.
goal_pos:sample from self._sample_goal()
而自带的reward shape只考虑了后面两个值的相对位置关系。
在初始化探索的时候,对于夹爪是否要接触Object来说,仍然是比较稀疏的任务。
Fetch环境奖励解析

本文解析了Gym-Fetch-Robotics环境中使用的奖励机制,并对比Robosuite中的奖励设计,指出原生环境中仅考虑物体与目标相对位置的问题。通过详细讨论pick-and-place任务中的奖励构成,包括接近、抓取、举起及放置等阶段的奖励设置。
最低0.47元/天 解锁文章
899

被折叠的 条评论
为什么被折叠?



