
Python
Python相关
wydxry
红叶经霜而赤,腊梅沐雪而馨!
展开
-
强化学习实战-使用Q-learning算法解决迷宫问题
Q-learning简介Q-learning也是采用Q表格的方式存储Q值(状态动作价值),决策部分与Sarsa是一样的,采用ε-greedy方式增加探索。Q-learning跟Sarsa不一样的地方是更新Q表格的方式。Sarsa是on-policy的更新方式,先做出动作再更新。Q-learning是off-policy的更新方式,更新learn()时无需获取下一步实际做出的动作next_action,并假设下一步动作是取最大Q值的动作。Q-learning的更新公式:迷宫问题如下图所示,原创 2021-08-13 17:21:09 · 3472 阅读 · 0 评论 -
强化学习实战-使用Q-learning算法解决悬崖问题
Q-learning简介Q-learning也是采用Q表格的方式存储Q值(状态动作价值),决策部分与Sarsa是一样的,采用ε-greedy方式增加探索。Q-learning跟Sarsa不一样的地方是更新Q表格的方式。Sarsa是on-policy的更新方式,先做出动作再更新。Q-learning是off-policy的更新方式,更新learn()时无需获取下一步实际做出的动作next_action,并假设下一步动作是取最大Q值的动作。Q-learning的更新公式:悬崖问题找到绕过悬崖原创 2021-08-13 16:56:42 · 1312 阅读 · 3 评论 -
强化学习实战-使用Sarsa算法解决悬崖问题
Sarsa 简介Sarsa全称是state-action-reward-state’-action’,目的是学习特定的state下,特定action的价值Q,最终建立和优化一个Q表格,以state为行,action为列,根据与环境交互得到的reward来更新Q表格,更新公式为:Sarsa在训练中为了更好的探索环境,采用ε-greedy方式来训练,有一定概率随机选择动作输出。悬崖问题找到绕过悬崖通往终端的最短路径(快速到达目的地),每走一步都有-1的惩罚,掉进悬崖会有-100的惩罚(并被拖回出发点)原创 2021-08-13 16:10:19 · 1838 阅读 · 0 评论 -
Python numpy.random.uniform函数
功能函数原型: numpy.random.uniform(low,high,size)功能:从一个均匀分布[low,high)中随机采样,采样个数为size,定义域为左闭右开,即包含low,不包含high.。返回值:ndarray类型。示例import numpy as npprint(np.random.uniform(0,1,2))[0.93971397 0.79872568] # 产生两个0到1之间均匀分布的数print(np.random.uniform(2,3,3))[2.10原创 2021-08-13 10:54:21 · 2423 阅读 · 0 评论