
强化学习
zkq_1986
这个作者很懒,什么都没留下…
展开
-
【强化学习】MCTS (Monte Carlo Tree Search)
MCTS(Monte Carlo Tree Search) 1 MCTS基本概念1.1 Monte CarloMonte Carlo是指,随机、大量地从某个分布中生成采样数据,以此计算某一特定目标值。【举例】For example, consider a circle inscribed in a unit square. Given that the circle a原创 2017-08-17 14:11:05 · 5463 阅读 · 0 评论 -
【强化学习】强化学习中模型的偏差和方差权衡
1和2两者结合,是对偏差和方差的一种权衡。1对应低偏差,2对应低方差。通常n选4或5。原创 2018-05-16 22:20:25 · 1514 阅读 · 0 评论 -
【强化学习】策略梯度policy gradient原理
R_theta的梯度为什么是R(t^n)grad(p(a_t|s_t,theta)?首先,我们来解释下grad(p(a_t|s_t,theta)是怎么来的。先看下面的一个分类问题。从上可知,分类的损失函数采用交叉熵,最小化交叉熵相当于最大化log(y_i)再来看为什么要乘上一个R(t^n)。从下面可知,乘上一个R(t^n),说明回报越大的状态动作对将被训练的次数越多,即对策略theta的影响更多。...原创 2018-05-22 19:41:45 · 2358 阅读 · 0 评论 -
【强化学习】actor-critic算法
actor:行动者,对应policycritic:评论者,对应value function值函数(1)actor-only:将policy参数化,可以在算法过程中直接优化,因此action可以是连续的。优化方法通常为policy gradient方法,该方法的缺点为在估计梯度的时候将会产生较大的方差,导致学习速度较慢。 (2)critic-only:使用temporal difference(时间...原创 2018-05-15 19:59:28 · 4573 阅读 · 0 评论 -
【深度学习】强化学习之DQN、Double DQN、dueling DQN原理
DQN,deep Q-network,用一个深度网络来拟合强化学习中的Q值Double DQN,分为主网络和target网络,主网络选择动作,target网络拟合Q值。主网络的变化浮动大,target网络变化浮动小。q_target = reward + gamma * np.max(q_next)dueling DQN,用一个深度网络来拟合强化学习中的Q值,只不过在网络最后部分,分为状态V值和动...原创 2018-05-15 11:04:58 · 6252 阅读 · 0 评论 -
【强化学习】阿里强化学习应用
阿里强化学习教程:https://pan.baidu.com/s/1mjWa4o4原创 2018-02-07 20:58:38 · 1557 阅读 · 0 评论 -
【强化学习】AlphaGo Zero详解
1 简介AlphaGo Zero(以下简称Zero)的过程如下图a、b所示,在每个状态s,通过MCTS搜索,获得每个可能move的概率p,其中MCTS搜索采用self-play并执行fθ策略。fθ主要采用微软的ResNet,即基于残差的学习。利用MCTS获得每个可能move的概率p之后,更新fθ权重。最后利用这个fθ评估最后能赢这盘棋的概率v。2 MCTS每个节点s(状态),包含若原创 2017-10-30 10:57:40 · 5198 阅读 · 0 评论 -
【深度学习】迁移学习
迁移学习(Transfer Learning) 在传统的机器学习的框架下,学习的任务就是在给定充分训练数据的基础上来学习一个分类模型;然后利用这个学习到的模型来对测试文档进行分类与预测。然而,我们看到机器学习算法在当前的Web挖掘研究中存在着一个关键的问题:一些新出现的领域中的大量训练数据非常难得到。我们看到Web应用领域的发展非常快速。大量新的领域不断涌现,从传统的新闻,到原创 2017-09-13 14:22:32 · 920 阅读 · 0 评论 -
【强化学习】DQN(Deep reinforcement learning) Basic
DQN(Deep reinforcement learning) Basic1 DQN’s architecture 【input】84*84*4 image pixels. The input to the neural network consists of an 84*84*4 image produced by the preprocessing map . 【h原创 2017-08-18 10:49:01 · 530 阅读 · 0 评论 -
【强化学习】MCTS蒙特卡洛树搜索原理
MCTS蒙特卡洛树搜索原理,分为四个步骤:1. 选择。从根节点开始,按一定策略,搜索到叶子节点。2. 扩展。对叶子节点扩展一个或多个合法的子节点。3. 模拟。对子节点采用随机的(即称为蒙特卡洛的缘由)方式模拟若干次实验。模拟到最终状态时即可得到当前模拟器所得的分。4. 结果回传。根据子节点若干次模拟的得分,更新当前子节点的模拟次数与得分值。同时将模拟次数与得分值回传到其所有祖先节点并更新祖先节点。...原创 2018-05-28 19:03:02 · 4506 阅读 · 0 评论