自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 cs294-deepRL with Qfunction

回顾Qlearning 问题在哪? 样本强相关、不是梯度下降 相关性采样 用replay buffer解决: 多次采样 采样放在一起 但是,目标值没有梯度 Q-learning 用目标网络 经典DQN算法: 更加通用的观点 ...

2019-07-23 22:10:40 169

原创 cs294-value function methods

在actor-critic中,忽略policy gradient 策略迭代过程: 策略迭代用动态规划 简化动态规划: 采用NN估计值函数 拟合Q迭代 为什么算法是off-policy 在线Q-learning算法 总结 ...

2019-07-23 21:28:50 170

原创 cs294-RL introduction

强化学习的种类 model-based RL 值函数 policy gradient actor-critic: value function plus policy gradients 为什么要有那么多的RL算法? 协调因素:采样高效、稳定 不同假设:随机或确定、连续or离散、episode or infinite horizon 难度不同:策略展示简单还是模型展示...

2019-07-23 20:35:32 273

原创 强化学习之值函数估计

目录 值函数估计介绍 增量方法 值函数估计介绍 大规模的MDP,存在两个缺点: 状态和动作过多。 计算太慢以至于不能学习到每个状态的值。 三种估计的方式。 函数逼近的方法 增量方法 表格查找法是值函数估计的特殊情况: 增量预测算法 基于MC的值函数估计 广义策略迭代方法 动作值函数估计 控制算法的收敛...

2019-07-16 22:16:16 973

原创 强化学习之model free control

model free control 能解决什么问题?》 策略迭代的基本操作 贪心策略提高值函数: 采用Monte Carlo 策略迭代, Greedy in the limit with infinite exploration MC 和 TD 控制的区别 Sarsa算法 On policy control with sarsa ...

2019-07-10 15:07:29 272

原创 强化学习之动态规划

Dynamic Programming 什么是DP,MDP为什么是DP? DP能解决什么问题? 迭代策略评估: 例子: 如何提高策略?

2019-07-09 22:49:12 203

原创 强化学习之MDP

MP MP的过程 由state probability reward lambda决定 案例如下所示: 值函数V(s) MDP, S A P R lamdba 决策变量定义 值函数和状态值函数的定义: Bellman方程 计算关于Q下的V Bellman方程 计算Q Bellman方程 计算V 寻找最优Q 和V 找到...

2019-07-09 21:24:56 549

转载 机器学习之机器学习基础

目录 机器学习基础 2.1 基本概念 机器学习基础 机器学习是人工智能的一个子集,目前已经发展出许多有用的方法,比如支持向量机SVM,回归Regression,决策树DT,随机森林randomForest,强化方法RL,集成学习ensemble,深度学习deeplearning等等,一定程度上可以帮助人们完成一些数据预测,自动化,自动决策,最优化等初步替代脑力的任务。本章我们主要介绍下机...

2019-07-08 22:44:41 384

转载 机器学习之数学基础

目录 Chapter 1 数学基础 1.1 向量和矩阵 转载自Github高赞机器学习项目 Chapter 1 数学基础 1.1 向量和矩阵 标量(scalar) 一个标量表示一个单独的数,它不同于线性代数中研究的其他大部分对象(通常是多个数的数组)。我们用斜体表示标量。标量通常被赋予小写的变量名称。 向量(vector) ​一个向量表示一组有序排列的数。通过次序中的索引,我们...

2019-07-08 21:19:30 222

原创 安装TensorFlow GPU版本指导

TensorFlow 官方指导安装网站 下载和安装 TensorFlow1.13.1 CUDA 9.0,cuDNN 7.3.1 以上三个软件配套使用 服务器环境 R740 2U Xeon 16核32线程 128 内存 显卡Tesla P40(24G) 至强银牌处理器(可开32线程)+GPU显卡(Tesla P40),尤其适用于计算量大可并行化的任务,深度学习利器。 ...

2019-05-30 14:20:22 185

原创 欢迎使用优快云-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 离线写博客 导入导出Markdown文件 丰富的快捷键 快捷键 加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2017-11-20 16:30:01 514

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除