
强化学习
文章平均质量分 70
Jolen_xie
生活性博士研究生
展开
-
马尔可夫决策过程(Markov Decision Process)学习笔记
记录一些自己的问题和理解基本的概率定义在给定前继状态和动作的值时,s′,s∈S,r∈Rs^{\prime}, s \in \mathcal{S}, r \in \mathcal{R}s′,s∈S,r∈R,在t时刻发生这些值的概率,这定义了MDP环境的动态特性。p(s′,r∣s,a)≐Pr{St=s′,Rt=r∣St−1=s,At−1=a}p\left(s^{\prime}, r \mid s, a\right) \doteq \operatorname{Pr}\left\{S_{t}=s^{\原创 2021-08-31 15:50:34 · 768 阅读 · 0 评论 -
Markov决策过程学习笔记和一些Markov代码实现的记录
Study notes of Markov desicion process马尔可夫性质(Markov properity)马尔可夫的性质如下图所示马尔可夫的性质表示下一刻的状态至于当前时刻有关,其他的历史信息可以丢弃不用。对于马尔可夫状态SSS和下一个状态s′s^{\prime}s′,两者之间的状态概率转移矩阵定义为:Pss′=P[St+1=s′∣St=s]\mathcal{P}_{s s^{\prime}}=\mathbb{P}\left[S_{t+1}=s^{\prime} \mid原创 2021-08-24 16:15:06 · 522 阅读 · 0 评论 -
David Silver强化算法学习地址和PPT
Bilibili:https://www.bilibili.com/video/BV1kb411i7KG?share_source=copy_web 有中文字幕Youtube:https://www.youtube.com/watch?v=2pWv7GOvuf0&list=PLqYmG7hTraZDM-OYHWgPebj2MfCFzFObQPPT:https://www.davidsilver.uk/teaching/原创 2021-08-20 15:23:44 · 195 阅读 · 0 评论