
强化学习
「已注销」
这个作者很懒,什么都没留下…
展开
-
值迭代、策略迭代
值函数策略: 状态s到动作a的映射:π:S→A\pi:S\rightarrow A 值函数:值函数都是对应于特定的策略的,即VπV^\pi 对于策略π\pi,状态s的值函数:Vπ(s)=E[R(s0)+γR(s1)+γ2R(s2)+...|s0=s,π].V^\pi(s)=E[R(s_0)+\gamma R(s_1)+\gamma^2 R(s_2)+...|s_0=s,\pi].也可表示为Bel原创 2017-04-29 13:22:35 · 8651 阅读 · 0 评论 -
强化学习-几个基本概念
马尔科夫性指系统的下一个状态仅与当前状态有关,而与以前的状态无关。 即:马尔科夫过程马尔科夫过程是一个二元组,且满足:S是有限状态集合, P是状态转移概率。状态转移概率矩阵为: 如:P的第一行表示,由状态1转到各个状态分别的概率 举例:未来几天可能的一个序列是:多云–雨天–雨天–晴天–多云,形成一个马尔科夫链马尔科夫决策过程MDP马尔科夫决策过程(MDP)可以这样描述: S 是一个有限状态集原创 2017-04-26 23:21:35 · 2057 阅读 · 0 评论