无模型强化学习方法全解析
1. 引言
在强化学习领域,无模型方法旨在直接学习动作价值函数,而非过渡和奖励模型。这种方法在许多实际问题中具有重要应用,下面将详细介绍几种常见的无模型强化学习算法。
2. Q - 学习算法
Q - 学习算法是一种重要的无模型强化学习算法,它使用贝尔曼方程的近似来逐步学习动作价值函数。其增量更新规则如下:
[Q(s, a) \leftarrow Q(s, a) + \alpha \left( r + \gamma \max_{a’} Q(s’, a’) - Q(s, a) \right)]
其中,(Q(s, a)) 是状态 (s) 下采取动作 (a) 的价值,(r) 是即时奖励,(\gamma) 是折扣因子,(\alpha) 是学习率。
以下是 Q - 学习算法的代码实现:
mutable struct QLearning
𝒮 # state space (assumes 1:nstates)
𝒜 # action space (assumes 1:nactions)
γ # discount
Q # action value function
α # learning rate
end
lookahead(model::QLearning, s, a) = model.Q[s,a]
function update!(model::QLearning, s, a, r, s′)
γ, Q, α = model.γ, model.Q, model.α
Q[s,a] +=
超级会员免费看
订阅专栏 解锁全文
19万+

被折叠的 条评论
为什么被折叠?



