【ManiSkill】环境success条件和reward函数学习笔记-优快云博客

本文链接：https://blog.youkuaiyun.com/songyuc/article/details/146611831

1. “PickCube-v1”

布尔型张量，在环境的evaluate()方法中计算并返回：

"success": is_obj_placed & is_robot_static

这确保了机器人不仅能将物体准确放置在目标位置，而且能够稳定地保持静止，模拟现实世界中的稳定抓取和放置任务；

状态量	说明
`is_obj_placed`	立方体的位置与目标位置（绿色球体）之间的 L2距离≤`goal_thresh`（0.025m）
`is_robot_static`	机器人的关节速度小于0.2

is_obj_placed = (
    torch.linalg.norm(self.goal_site.pose.p - self.cube.pose.p, axis=1)
    <= self.goal_thresh
)

具体功能：

在evaluate函数中的应用：

在奖励计算中的应用：

当机器人成功抓取立方体并将其移动到目标位置后，系统会检查机器人是否稳定静止，以确保任务完成的稳定性和质量。

is_robot_static = self.agent.is_static(0.2)

该变量通过调用 BaseAgent 类中的 is_static() 方法实现，具体检查机器人的关节速度（“q velocity”）是否低于0.2。如果所有关节速度都小于此阈值，则认为机器人处于静止状态。