强化学习:原理、策略与应用
1. 强化学习基础回顾
在强化学习领域,我们常常从简单的问题入手,以理解其核心概念。N - 臂老虎机问题就是这样一个经典的简化模型。在这个问题中,智能体的目标是找到能带来最高平均回报的最佳机器。为了实现这一目标,我们通常会使用 $\epsilon$- 贪心策略。
1.1 $\epsilon$- 贪心策略
$\epsilon$- 贪心策略是一种在探索和利用之间进行权衡的方法。在每一步,智能体有 $1 - \epsilon$ 的概率选择当前估计价值最高的动作(利用),有 $\epsilon$ 的概率随机选择一个动作(探索)。动作是指智能体在特定状态下可以采取的行为,而动作的价值则是该动作在长期内预期获得的平均回报。
利用是指选择当前已知的最佳动作,以最大化即时回报;探索则是尝试不同的动作,以发现可能更好的选择。这种策略允许智能体在开始时进行大量的探索,随着时间的推移,逐渐增加利用的比例。
1.2 平均回报的维护机制
为了维护平均回报,我们可以使用一种简单的机制。假设我们已经进行了 $n$ 次试验,第 $i$ 个动作的平均回报为 $Q_i(n)$,在第 $n + 1$ 次试验中选择了动作 $a$ 并获得了回报 $r$,则动作 $a$ 的新平均回报可以通过以下公式更新:
$Q_a(n + 1) = Q_a(n) + \frac{1}{n + 1}(r - Q_a(n))$
这个公式的直观解释是,新的平均回报是旧的平均回报加上一个与当前回报和旧平均回报之差成比例的调整项。随着试验次数的增加,每次调整的幅度会逐渐减小。
超级会员免费看
订阅专栏 解锁全文
2802

被折叠的 条评论
为什么被折叠?



