强化学习-笔记

Q-learning VS. Sarsa

  • Q-learning更新公式 (off-policy):
    Q ( s , a ) = Q ( s , a ) + α ( r + γ max ⁡ a ′ Q ( s ′ , a ′ ) − Q ( s , a ) ) Q(s,a)=Q(s,a)+\alpha(r+\gamma \max_{a'}Q(s',a')-Q(s,a)) Q(s,a)=Q(s,a)+α(r+γamaxQ(s,a)Q(s,a))
    更新状态 s = s ′ s=s' s=s.
  • Sarsa更新公式 (on-policy):
    Q ( s , a ) = Q ( s , a ) + α ( r + γ Q ( s ′ , a ′ ) − Q ( s , a ) ) Q(s,a)=Q(s,a)+\alpha(r+\gamma Q(s',a')-Q(s,a)) Q(s,a)=Q(s,a)+α(r+γQ(s,a)Q(s,a))
    更新状态 s = s ′ s=s' s=s,动作 a = a ′ a=a' a=a.
强化学习
有模型学习:马尔可夫决策过程已知
策略评估:全概率展开
策略改进:最优Bellman等式
免模型学习:马尔可夫决策过程未知
蒙特卡罗Monte-Carlo方法
时序差分Temporal-difference方法
在线方法on-policy
离线方法off-policy

李宏毅强化学习

github李宏毅深度学习笔记

  • Policy based --> Learning an actor -->代表是 Policy Gradient
  • Value based --> Learning a critic --> 代表是 Q-learning

Policy Gradient

目标:调整actor的参数θ,最大化R的期望

Off-policy (PPO方法)

为了重复利用数据

  • PPO (Proximal Policy optimization)为了解决θ与θ’别太不一样的问题

Deep Q-learning


2020.12.09放弃了David Silver的课

马尔克夫决策过程

Markov Process

  • 没reward,没action,
  • 只有 状态S 和 状态转移矩阵P, < S , P > <S,P> <S,P>

Markov Reward Process

  • 加reward
  • 需要 奖励函数R 和 折扣因子 γ \gamma γ < S , P , R , γ > <S,P,R,\gamma> <S,P,R,γ>
  • 奖励函数R只表示出当前状态的奖励(即时奖励)
  • 目标:最大化累计奖赏 G t = R t + 1 + γ R t + 2 + . . . G_t= R_{t+1}+\gamma R_{t+2}+... Gt=Rt+1+γRt+2+...
  • Value function: v ( s ) = E [ G t ∣ S t = s ] v(s)=E[G_t|S_t=s] v(s)=E[GtSt=s]就是 G t G_t Gt的期望。

Markov Decision Process

  • 加决策(动作) A A A < S , P , A , R , γ > <S,P,A,R,\gamma> <S,P,A,R,γ>

动态规划

ProblemBellman EquationAlgorithm
PredictionBellman Expectation EquationIterative Policy Evaluation
ControlBellman Expectation Equation + Greedy Policy ImprovementPolicy Iteration
ControlBellman Optimality EquationValue Iteration
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值