
强化学习
记录强化学习的学习过程
Chasing中的小强
自信悠然,不争,不端,实事求是
展开
-
强化学习--Pytorch--DDPG
DDPG介绍及其示例Deep Deterministic Policy Gradient是DeepMind团队为Actor-Critic方法打造的升级版本,其实也就是Actor-critic和DQN的融合版本。下面给出示例程序,程序来源自网络。'''torch = 0.41'''import torchimport torch.nn as nnimport torch.nn.functional as Fimport numpy as npimport gymimport time原创 2020-07-02 16:19:01 · 2781 阅读 · 1 评论 -
强化学习--Pytorch--DQN扩展以及Policy Gradient网络结构
DQN算法存在过估计问题,可以采用Double DQN方法来进行补偿。两种方法只在下图不同,其他地方一致。下图公式为 q_target 的输出值,DQN:Double DQN:原创 2020-07-02 13:10:32 · 1323 阅读 · 0 评论 -
强化学习--Pytorch--DQN
DQN的学习效果还是很惊艳的,首先放上本次实验的代码。和官方给出的例子一样,是托举平衡杆的问题。给出视频链接:强化学习DQNimport torchimport torch.nn as nnimport torch.nn.functional as Fimport numpy as npfrom torch.autograd import Variableimport gym # 超参数BATCH_SIZE = 32LR = 0.01 # learning rate# 强化学习的参原创 2020-06-28 15:59:25 · 2472 阅读 · 1 评论 -
强化学习--Pytorch篇
Q_learning算法首先祭出强化学习中的基础方法Q-Learning,算法流程如下图所示:Q-learning是一个不断摸索,最终找到最优的方法。个人理解是这样的:首先Q表是一个初值都为0 的表,被学习体只能随意摸索。当得到reward之后,乘以学习率 alpha ,更新Q表。这样,在下一次走到这一步的时候,就能够根据maxQ(s’,:)来决定选择,其 gammar可以理解为眼界,gammar取值为0~1,极端的,当gammar为1时,表示可以看到后续多步的结果;当gammar为0的时候,则表示原创 2020-06-27 12:28:59 · 3627 阅读 · 0 评论 -
强化学习--基础篇
背景:由于返校的原因,手头的笔记本无法完成在Windows下运行虚拟机的操作,所以选择在Windows下进行一些学习。(不得不吐槽下“微星笔记本”)最近在看“强化学习”有关书籍,其中前几章为基础知识。现做个总结:书中多采用python实例,不可避免的又要和python打交道,于是配置了相关vscode的python环境。电脑本身是装有numpy,和matplotlib包的(忘了什么时候安装的了)首先在vscode中, ctrl+shift+P找到下图所示配置地方添加语句如下所示:{原创 2020-06-08 13:15:59 · 1133 阅读 · 0 评论