1. 可视化调用流程(from Deepseek-r1-Cursor) [RL算法调用 env.step()] ↓ 调用 env.get_info() ↓ 调用 env.evaluate() → 返回包含 success 的字典 ↓ 将 success 存入 info 字典 ↓ 在 step() 中处理终止条件: terminated = success | fail