DoorGym:开源的可拓展的开门仿真环境,用于域随机化的强化学习、深度强化学习

本文介绍了一种利用Unity和Mujoco构建的门把手模拟环境,通过领域随机化提高模型鲁棒性。研究了SAC和PPO策略,并发现PPO在实际应用中表现更好,尽管0样本泛化至现实世界时性能下降,但门把手位置估计对策略训练有显著影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

0.概述

  • 目的:创建一个可以改变门把手形状、类型、位置、环境颜色、照明条件、机械臂结构的仿真环境,以训练出鲁棒性更高、更能关注到任务本质特征、容易迁移到现实的模型
    在这里插入图片描述
    在这里插入图片描述

  • 网址环境下载

1.领域随机化DR

  • 假设很难对目标域进行完美建模,但很容易创建许多不同的模拟来近似目标域

2.引擎

  • Unity:用来为视觉提供渲染画面
  • Mujoco:使用对应框架和接口

3.环境

  • 组成:机械臂、门、门把手、门框、墙;其中前三者的物理特性在一定范围内随机(3种执行器、6种机械臂、推和拉2种动作方向)
  • 门把手:pull:无需旋转、level:各向异性需旋转开锁、round:各向同性需旋转开锁,难度依次上升。
  • 机械臂:默认使用Berkeley BLUE机械臂。可从6自由度的浮动钩到全10自由度的抓手手臂和移动平台变化。
  • 最简单环境配置:浮动钩开启pull门把手
  • 最困难环境配置:BLUE用抓手打开round门把手
  • 默认奖赏函数

在这里插入图片描述

  • 评估指标:100次的平均开门成功率和平均开门时间

4.基线策略

  • 异策略:SAC
  • 同策略:PPO
  • 整体框架
    • 视觉部分:通过俯视的手外摄像头和在手的正视摄像头来学习出把手的位置
    • 观测信息:方向向量(把手位置与末端位置的差)、机械臂关节角度、关节速度
      在这里插入图片描述
  • PPO缓冲区策略:8线程,每线程8轮,每轮512时间步(10.2秒),每次更新使用全部的64轮
  • SAC缓冲区策略:10轮,1000000时间步
  • PPO预训练策略
    • 使用环境中的把手位置真值预训练视觉网络
    • 使用把手位置真值训练策略网络
    • 使用把手位置真值和高斯噪声模拟视觉网络输出来训练策略网络

5.结论

  • 可以0样本泛化到现实世界,但耗时和成功率都变差
  • PPO比SAC效果更好,SAC训练时候的探索性更强
  • 门把手位置估计对PPO影响很大
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

阿航626

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值