- 博客(6)
- 收藏
- 关注
原创 快速上手PettingZoo——多智能体环境PettingZoo与单智能体环境Gym的区别解读
可以看出,PettingZoo的Parallel形式和Gym更加类似,需要注意reset(),step()方法返回的都是所有智能体的字典形式step()方法要求输入的也是所有智能体actions的字典形式,所有要注意用for循环访问env.agents获取动作字典对于AEC形式,要利用agent_iter指向当前智能体和last方法reset(),step()方法没有返回值使用last()方法获取当前智能体各种信息。
2023-12-20 14:17:02
2579
1
原创 TRPO(Trust Region Policy Optimization)原理讲解
TRPO(Trust Region Policy Optimization)解决了A-C框架中更新梯度步长大小的问题,采用一种相对保守的策略更新梯度,引入信任区域和KL散度约束,使得每次更新幅度受限制,主要是TRPO能找到一个好的步长α来更新参数θθα∇θJθ,除此之外,TRPO还加入了重要性采样IS和广义优势估计GAE还保证提高了样本的利用率。此时TRPO已经不严格满足on-policy算法,是一种近似算法了。下面讲解我们推导TRPO的过程。
2023-12-15 22:04:54
1562
原创 Actor-Critic及Advantage Actor-Critic(A2C)原理及实战讲解
本文将从REINFORCE算法的缺点入手,引入Actor-Critic网络的改进,并给出A2C的细节和实现代码。总的来说,Actor-Critic同时吸收了value-based和policy-based下的优点,不过本质上还是从policy-based开始改进的,这一系列算法的目标都是优化策略网络参数,只是引入了学习价值函数的网络帮助策略评估。
2023-12-15 13:14:09
3065
2
原创 策略梯度与REINFORCE算法——policy-based的开始
本文将从策略梯度开始介绍,理解策略梯度原理的基础上讲解REINFORCE算法并分析代码,总结其优缺点。
2023-12-14 19:10:51
1032
1
原创 【离线学习(Offline Learning)算法TD3-BC论文理解:A Minimalist Approach to Offline Reinforcement Learning
标题:A Minimalist Approach to Offline Reinforcement Learning链接:https://arxiv.org/pdf/2106.06860.pdf发表于: NeurIPS 2021源码仓库:https://github.com/sfujim/TD3_BC相关领域:强化学习 深度学习 离线学习 策略优化[TOC]
2023-12-08 15:42:20
1538
原创 论文理解 A Survey on Trajectory-Prediction Methods for Autonomous Driving
轨迹预测综述论文理解
2023-03-03 20:01:31
2232
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人