强化学习
full_adder
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
强化学习笔记系列二
强化学习入门-2⊳\rhd⊳ 优化问题⊳\rhd⊳ Prediction 与Control⊳\rhd⊳ 动态规划(DP)策略迭代价值迭代⊳\rhd⊳ 蒙特卡洛策略(MC)first-visitevery-visit⊳\rhd⊳ 时序差分TD(0)Q-Learening 2020.12.8 ⊳\rhd⊳ 优化问题 上回书说到,我们需要解决以下优化问题: Vπ(s)=∑aπ(a∣s)(R(s,a)+γ∑s′(P(s′∣a,s)Vπ(s′)))V_{ \pi }(s)=\sum_a \pi(a|s)(原创 2020-12-08 23:51:56 · 324 阅读 · 0 评论 -
强化学习笔记系列一
强化学习入门-1背景马尔可夫决策模型(MDP)价值迭代与策略迭代价值函数Bellman期望方程参考 2020.12.7 背景 人类学习的基本动力是菜——沃.兹基硕德 强化学习是近年较当红的炸子鸡。所谓 强化学习 ,表示的是一种实体与环境的交互,是寻找一个得到最优态势策略的问题。白话言,如何在每个命运的节点,都能做出最正确的选择? 一个例子,作为命定的主角,上小学的你兜里有五块钱,你路过小卖铺,非常想吃可爱多冰淇淋,但你一个月只有这五块零花钱,世界线在此分开。 短期收益:你一咬牙一跺脚,买了!你收获了吃原创 2020-12-07 23:06:06 · 324 阅读 · 0 评论
分享