Reinforcement Learning - An Introduction memo

最新推荐文章于 2025-05-22 16:56:26 发布

monkey_rose

最新推荐文章于 2025-05-22 16:56:26 发布

阅读量274

点赞数

CC 4.0 BY-SA版权

分类专栏： Reinforcement Learning

本文链接：https://blog.youkuaiyun.com/monkey_rose/article/details/79704641

Reinforcement Learning 专栏收录该内容

2 篇文章

订阅专栏

本文介绍了马尔可夫决策过程(MDP)的基本概念，包括有限状态空间与动作空间、转移概率等，并详细阐述了价值函数(state-value function与action-value function)的概念与计算方式。此外，还介绍了策略评估(policy evaluation)、策略改进(policy improvement)、策略迭代(policy iteration)及价值迭代(value iteration)等强化学习核心算法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.MDP(Markov Decision Processes)

finite MDP: finite state space&finite action space

transition probabilities：p(s′ | s, a) = Pr{S_t+1 = s′ | S_t = s, A_t = a}

r(s, a, s′) = E[R_t+1 | S_t = s, A_t = a, S_t+1 = s′]

2.Value Functions

state-value function: v_$\pi$(s)=E_$\pi$[G_t|S_t = s] = E_$\pi$[ $\sum_{k=0}^{\infty}\gamma ^{k}R_{t+k+1}$ | S_t = s]

action-value function: q_$\pi$(s, a) = E_$\pi$[G_t|S_t = s, A_t = a] = E_$\pi$[ $\sum_{k=0}^{\infty}\gamma ^{k}R_{t+k+1}$ | S_t = s, A_t = a]
G_t: return (cumulative discounted reward) following t
R_t: reward at t, dependent, like S_t, on A_t−1 and S_t−1
G_t = $\sum_{k=0}^{\infty}\gamma ^kR_{t+k+1}$

v_$\pi$, q_$\pi$: v_$\pi$(s) = $\sum_a\pi(a|s)q_\pi(s, a)$ q_$\pi$(s, a) = $\sum_{s'}p(s'|s, a)[r(s, a, s')+\gamma$ v_$\pi$(s’)]
$\pi(a|s)$ : probability of taking action a when in state s

Bellman Equation for v_$\pi$: v_$\pi$(s) = $\sum_{a} \pi(a|s)\sum_{s'}p(s'|s, a)[r(s, a, s')+\gamma v_\pi(s')$ ]
Bellman function => learn v_$\pi$

Bellman Equation for q_$\pi$: q_$\pi$(s, a) = $\sum_{s'}p(s'|s, a)[r(s, a, s')+\gamma\sum_{a'}\pi(a' | s')q_\pi(s', a')]$

3.Policy Evaluation

policy evaluation: compute v_$\pi$ for policy $\pi$
Iteration policy evaluation:
1. For state s, the initial v₀ is chosen arbitary(terminal state 0)
2.Successive approximation is obtained by using the Bellman Equation:
v_k+1(s) = E $_\pi$ [R_t+1+ $\gamma$ v_k(s_t+1) | S_t = s]
code:

4.Policy Improvement

policy improvement: evaluate policy to find better policies

greedy policy $\pi'$ : $\pi'$ (x) = arg $\mathop{}_{a}^{max} q_\pi(s, a)$
The greedy policy takes the action that looks best in the short term—after one step of lookahead—according to v $_\pi$ .

5.Policy Iteration&Value Iteration

policy iteration

code:

an example:

value iteration

It can be written as a particularly simple backup operation that combines the policy improvement and truncated policy evaluation steps, more efficient.

v_k+1(s) = $\mathop{}_{a}^{max}$ E[R_t+1+ $\gamma$ v_k(S_t+1) | S_t = s, A_t = a]

code:

Q-Learning

Initialize Q(s,a) arbitrarily
Repeat (for each episode):
    Initialize s
    Repeat (for each episode):
        Choose a from s using policy derived from Q(e.g.,ε-greedy)
        Take action a, observe r, s'
        Q(s, a)←Q(s, a) + α[r + γmaxQ(s', a')-Q(s, a)]
        s←s'
    util s is terminal