强化学习
AI_Rancho
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
EM算法
博客知乎转载 2020-08-13 10:39:05 · 185 阅读 · 0 评论 -
隐马尔科夫模型
隐马尔科夫模型一(概念理解)隐马尔可夫模型二(公式推导)转载 2020-08-12 23:45:44 · 193 阅读 · 0 评论 -
莫凡TensorFlow代码问题
tf2.0以上版本的,开始加两行import tensorflow.compat.v1 as tftf.disable_v2_behavior()原创 2020-07-27 21:14:33 · 1145 阅读 · 0 评论 -
anaconda安装cpu版本的TensorFlow
1.Anaconda prompt中创建 python3.6 版本的TensorFlow环境:conda create -n tensorflow python=3.62.activate tensorflow3.pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tensorflow==2.0.0-rc # 使用清华园镜像 飞快!4.测试:import tensorflow as tf...原创 2020-07-27 20:24:05 · 1620 阅读 · 3 评论 -
DQN代码问题
1.env.render()函数用于渲染出当前的智能体以及环境的状态。2.env.reset()为重新初始化函数3.observation_, reward, done = env.step(action)第一个为当前屏幕图像的像素值,经过彩色转灰度、缩放等变换最终送入我们上一篇文章中介绍的 CNN 中,得到下一步“行为”;第二个值为奖励,每当游戏得分增加时,该返回值会有一个正反馈;第三个值 gameover 为布尔值,如果游戏结束,返回 True;...原创 2020-07-27 16:48:14 · 531 阅读 · 0 评论 -
Sarsa
Sarsa:在S2状态直接选择值。原创 2020-07-26 20:40:08 · 182 阅读 · 0 评论 -
强化学习方法汇总
model-free RL(依靠真实世界的反馈):1.Q learning2.Sarsa3.Policy Gradientsmodel-based RL(可以在想象中模拟):1.Q learning2.Sarsa3.Policy Gradientspolicy-based RL(基于概率):不一定选择最高概率1.Policy Gradientsvalue-based RL:一定选择最大价值,连续的动作无法用基于价值1.Q learning2.Sarsaactor-critic:两种原创 2020-07-24 15:45:21 · 608 阅读 · 0 评论
分享