Closing the Sim-to-Real Loop: Adapting Simulation Randomization with Real World Experience

本文探讨了通过训练模拟场景的分布将策略转移到现实世界的问题。提出了一种使用真实世界经验调整模拟随机化的方法,通过匹配模拟与现实的策略行为,实现更有效的策略转移。实验展示了在摆钉和开柜门任务中,该方法能使策略成功应用于不同机器人。

Closing the Sim-to-Real Loop: Adapting Simulation Randomization with Real World Experience

模拟到实际循环闭环:使用真实世界的经验调整模拟随机化

Yevgen Chebotar, Ankur Handa, Viktor Makoviychuk Miles Macklin Jan Issac1 Nathan Ratliff1 Dieter Fox

Abstract—We consider the problem of transferring policies to the real world by training on a distribution of simulated scenarios. Rather than manually tuning the randomization of simulations, we adapt the simulation parameter distribution using a few real world roll-outs interleaved with policy training. In doing so,we are able to change the distribution of simulations to improve the policy transfer by matching the policy behavior in simulation and the real world. We show that policies trained with our method are able to reliably transfer to different robots in two real world tasks:swing-peg-in-hole and opening a cabinet drawer. The video of our experiments can be found at https: //sites.google.com/view/simopt.

我们通过培训模拟场景的分布来考虑将策略转移到现实世界的问题。我们不是手动调整模拟的随机化,而是使用与策略培训交错的一些真实世界的推出来调整模拟参数分布。通过这样做,我们能够通过匹配模拟中的策略行为和现实世界来改变模拟的分布以改善策略转移。我们表明,使用我们的方法训练的策略能够在两个真实世界的任务中可靠地转移到不同的机器人:摆钉和打开橱柜抽屉。 我们的实验视频可在https://sites.google.com/view/simopt上找到。

将模拟到现实传输循环闭环是机器人策略的强大传输的重要组成部分。

转载于:https://www.cnblogs.com/feifanrensheng/p/11167978.html

Matlab基于粒子群优化算法及鲁棒MPPT控制器提高光伏并网的效率内容概要:本文围绕Matlab在电力系统优化与控制领域的应用展开,重点介绍了基于粒子群优化算法(PSO)和鲁棒MPPT控制器提升光伏并网效率的技术方案。通过Matlab代码实现,结合智能优化算法与先进控制策略,对光伏发电系统的最大功率点跟踪进行优化,有效提高了系统在不同光照条件下的能量转换效率和并网稳定性。同时,文档还涵盖了多种电力系统应用场景,如微电网调度、储能配置、鲁棒控制等,展示了Matlab在科研复现与工程仿真中的强大能力。; 适合人群:具备一定电力系统基础知识和Matlab编程能力的高校研究生、科研人员及从事新能源系统开发的工程师;尤其适合关注光伏并网技术、智能优化算法应用与MPPT控制策略研究的专业人士。; 使用场景及目标:①利用粒子群算法优化光伏系统MPPT控制器参数,提升动态响应速度与稳态精度;②研究鲁棒控制策略在光伏并网系统中的抗干扰能力;③复现已发表的高水平论文(如EI、SCI)中的仿真案例,支撑科研项目与学术写作。; 阅读建议:建议结合文中提供的Matlab代码与Simulink模型进行实践操作,重点关注算法实现细节与系统参数设置,同时参考链接中的完整资源下载以获取更多复现实例,加深对优化算法与控制系统设计的理解。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值