- 博客(11)
- 收藏
- 关注
原创 cs294-deepRL with Qfunction
回顾Qlearning 问题在哪? 样本强相关、不是梯度下降 相关性采样 用replay buffer解决: 多次采样 采样放在一起 但是,目标值没有梯度 Q-learning 用目标网络 经典DQN算法: 更加通用的观点 ...
2019-07-23 22:10:40
169
原创 cs294-value function methods
在actor-critic中,忽略policy gradient 策略迭代过程: 策略迭代用动态规划 简化动态规划: 采用NN估计值函数 拟合Q迭代 为什么算法是off-policy 在线Q-learning算法 总结 ...
2019-07-23 21:28:50
170
原创 cs294-RL introduction
强化学习的种类 model-based RL 值函数 policy gradient actor-critic: value function plus policy gradients 为什么要有那么多的RL算法? 协调因素:采样高效、稳定 不同假设:随机或确定、连续or离散、episode or infinite horizon 难度不同:策略展示简单还是模型展示...
2019-07-23 20:35:32
273
原创 强化学习之值函数估计
目录 值函数估计介绍 增量方法 值函数估计介绍 大规模的MDP,存在两个缺点: 状态和动作过多。 计算太慢以至于不能学习到每个状态的值。 三种估计的方式。 函数逼近的方法 增量方法 表格查找法是值函数估计的特殊情况: 增量预测算法 基于MC的值函数估计 广义策略迭代方法 动作值函数估计 控制算法的收敛...
2019-07-16 22:16:16
973
原创 强化学习之model free control
model free control 能解决什么问题?》 策略迭代的基本操作 贪心策略提高值函数: 采用Monte Carlo 策略迭代, Greedy in the limit with infinite exploration MC 和 TD 控制的区别 Sarsa算法 On policy control with sarsa ...
2019-07-10 15:07:29
272
原创 强化学习之动态规划
Dynamic Programming 什么是DP,MDP为什么是DP? DP能解决什么问题? 迭代策略评估: 例子: 如何提高策略?
2019-07-09 22:49:12
203
原创 强化学习之MDP
MP MP的过程 由state probability reward lambda决定 案例如下所示: 值函数V(s) MDP, S A P R lamdba 决策变量定义 值函数和状态值函数的定义: Bellman方程 计算关于Q下的V Bellman方程 计算Q Bellman方程 计算V 寻找最优Q 和V 找到...
2019-07-09 21:24:56
549
转载 机器学习之机器学习基础
目录 机器学习基础 2.1 基本概念 机器学习基础 机器学习是人工智能的一个子集,目前已经发展出许多有用的方法,比如支持向量机SVM,回归Regression,决策树DT,随机森林randomForest,强化方法RL,集成学习ensemble,深度学习deeplearning等等,一定程度上可以帮助人们完成一些数据预测,自动化,自动决策,最优化等初步替代脑力的任务。本章我们主要介绍下机...
2019-07-08 22:44:41
384
转载 机器学习之数学基础
目录 Chapter 1 数学基础 1.1 向量和矩阵 转载自Github高赞机器学习项目 Chapter 1 数学基础 1.1 向量和矩阵 标量(scalar) 一个标量表示一个单独的数,它不同于线性代数中研究的其他大部分对象(通常是多个数的数组)。我们用斜体表示标量。标量通常被赋予小写的变量名称。 向量(vector) 一个向量表示一组有序排列的数。通过次序中的索引,我们...
2019-07-08 21:19:30
222
原创 安装TensorFlow GPU版本指导
TensorFlow 官方指导安装网站 下载和安装 TensorFlow1.13.1 CUDA 9.0,cuDNN 7.3.1 以上三个软件配套使用 服务器环境 R740 2U Xeon 16核32线程 128 内存 显卡Tesla P40(24G) 至强银牌处理器(可开32线程)+GPU显卡(Tesla P40),尤其适用于计算量大可并行化的任务,深度学习利器。 ...
2019-05-30 14:20:22
185
原创 欢迎使用优快云-markdown编辑器
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 离线写博客 导入导出Markdown文件 丰富的快捷键 快捷键 加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
2017-11-20 16:30:01
514
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅