
pytorch强化学习笔记
文章平均质量分 62
云月墨染
Python,Matlab,CNF,Power,CFD,RL,DL,ML。
展开
-
CartPoleEnv的reward上限200,增大或减小的解决方案
什么是CartPoleCartPole又叫倒立摆。如下图,小车上放了一根杆,杆会因重力而倒下。我们要通过移动小车保持杆树立,不让其倒下。网页跳转在实际训练中,发现每次reward上限只有200。在gym的安装位置在文件gym/envs/init.py 中,限定了最大的步数:max_episode_steps,可以通过修改它来解决问题。register( id="CartPole-v0", entry_point="gym.envs.classic_control:CartPoleE原创 2022-03-20 18:32:13 · 1419 阅读 · 1 评论 -
DQN的e-greedy策略理解
阅读蘑菇书源码时,在写DQN网络的智能体是这样写的:class DQN: def __init__(self, state_dim, action_dim, cfg): self.action_dim = action_dim # 总的动作个数 self.device = cfg.device # 设备,cpu或gpu等 self.gamma = cfg.gamma # 奖励的折扣因子 # e-greedy策略相关参数原创 2022-03-20 15:07:45 · 4462 阅读 · 0 评论 -
super(MLP, self).__init__()
在磨菇书的源码中,common.model文件中的MLP类是这样写的:class MLP(nn.Module): def __init__(self, input_dim,output_dim,hidden_dim=128): """ 初始化q网络,为全连接网络 input_dim: 输入的feature即环境的state数目 output_dim: 输出的action总个数 """ super(MLP原创 2022-03-20 14:53:40 · 900 阅读 · 0 评论 -
强化学习中贝尔曼等式推导过程中的疑问解答
V(s)=R(s)+γ∑s′∈SP(s′∣s)V(s′)V(s) = R(s) + \gamma \sum\limits_{s' \in S} {P(s'|s)V(s')} V(s)=R(s)+γs′∈S∑P(s′∣s)V(s′)原创 2021-07-25 23:38:02 · 444 阅读 · 5 评论 -
unbutn20.04安装anaconda及常见报错处理
unbutn20.04安装Anaconda及常见报错处理unbutn20.04桌面版下载创建安装盘安装unbutn20.04Anaconda安装检查是否安装成功添加清华大学提供的镜像源其他Anaconda功能测试使用anaconda安装一个python的包启动Anaconda图形界面在终端启动jupyter notebookAnaconda安装pytorchAnaconda安装后常见问题解决conda命令不能正常使用,提示未找到命令查看conda的版本,结果报错:"conda: error: the fol原创 2021-03-25 18:37:10 · 1908 阅读 · 0 评论