引言:什么是强化学习?
强化学习(Reinforcement Learning, RL)是一类解决序列决策任务的方法。在这些任务中,我们设计一个智能体(Agent),它通过与外部环境进行交互来学习如何做出最佳决策。智能体根据当前状态选择动作,环境则根据动作反馈新的状态和奖励,智能体利用这些信息不断更新自身状态并优化策略,以最大化累积奖励。

图1:智能体与环境的交互示意图。智能体根据当前状态选择动作,环境则反馈新的状态和观察。
1. 强化学习的基本概念
1.1 序列决策
在强化学习中,智能体的目标是选择一种策略(Policy)π,以最大化期望回报:
V π ( s 0 ) = E p ( a 0 , s 1 , a 1 , … , a T , s T ∣ s 0 , π ) [ ∑ t = 0 T R ( s t , a t ) ∣ s 0 ] V_{\pi}(s_{0})=\mathbb{E}_{p(a_{0},s_{1},a_{1},\dots,a_{T},s_{T}|s_{0},\pi)}\left[\sum_{t=0}^{T}R(s_{t},a_{t})|s_{0}\right] Vπ(s0)=Ep(a0,s1,a1,…,aT,sT∣s0,π)

最低0.47元/天 解锁文章
2550

被折叠的 条评论
为什么被折叠?



