参考链接
老师推荐的课程:https://www.davidsilver.uk/teaching/
莫烦python的课程:https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/
莫烦python的github:https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow
强化学习:初识


强化学习:分类
Modelfree 和 Modelbased

基于概率 和 基于价值


回合更新 和 单步更新

在线学习 和 离线学习

QLearning
QLearning 决策

QLearning 更新


整体算法

实例1:

实例2:


QLearning 中的 Gamma

Sarsa
Q learning 与 Sarsa 对比


Sarsa的迷宫代码

Q learning的迷宫代码

Sarsa(入)


DQN
motivation:表格太大了,于是转用神ing网络,让网络帮忙处理,最后选出下一步动作

DQN的两大利器

算法


神经网络部分实现





其他部分实现










1388

被折叠的 条评论
为什么被折叠?



