
RL
文章平均质量分 80
Lyra717
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
强化学习笔记4-MC,TD方法
不需建模的策略评估先复习需要建模的方法 动态programming:我们需要model,P,R无需建模的:R(s)累计的瞬时reward 其期望为Vπ(s)V^{\pi}(s)Vπ(s)Vπ(s)V^{\pi}(s)Vπ(s)的估计不用模型计算R(s)采用从s开始的N trajectories有的reward:R1,R2,R3…Monte Carlo 方法V(s)的近似值为1/N Rk的和 ,近似期望估计值收敛到实数期望,variance收敛到0,方差很大通过迭代平均来完成 很浪费原创 2021-03-14 23:20:19 · 608 阅读 · 0 评论 -
强化学习笔记3-解bellman方程
贪婪策略某一策略是贪婪的for 状态值方程V,if $\pi(s,a)=1 $ ifa等于估计状态动作值方程最大值,否则为0;最优策略(最大的状态值方程)V∗(s)=maxπVπ(s)V^{*}(s)=max_{\pi} V^{\pi}(s)V∗(s)=maxπVπ(s)V的贪婪策略是最优的,V的贪婪策略可能不止一个,但所有的 Vπ∗V^{\pi ^{*}}Vπ∗都等于V*;如何计算最优策略?(期望)计算最优状态值方程,写出Bellman equation,从各部分加到一起V*(s)是从s原创 2021-03-14 23:01:27 · 736 阅读 · 0 评论 -
强化学习笔记2-马尔科夫决策过程
Markov Decision Processes强化学习的任务agent(include strategy和model)环境提供state给agent,agent选择action 作用于环境,环境reward给agent…成分:环境,黑盒 只看得到输入输出学习的agent,state,agent关于环境的observationreward,single number(随时间改变)strategy, state->action mappingaction, 影响环境最大的问题是原创 2021-02-23 22:13:42 · 402 阅读 · 0 评论 -
强化学习笔记1-introduction
1 intelligence->actionsmachine learning ,deep learning result in breakthrough有些方面超过人类,一些不如人类(fragile)2 different mistake导致分错类component depends on the environment, neighbor->需要 explainable AIdata-driven AI 由于大量可获得的数据 计算能力 复杂计算模型 而获得成功3 但是强人工原创 2021-02-14 22:44:15 · 157 阅读 · 0 评论