31、强化学习：原理、策略与应用

python9snake

于 2025-11-17 00:33:46 发布

阅读量17

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习入门精要文章标签：强化学习 epsilon-贪心策略回报分配

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/python9snake/article/details/154921636

机器学习入门精要专栏收录该内容

31 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习：原理、策略与应用

1. 强化学习基础回顾

在强化学习领域，我们常常从简单的问题入手，以理解其核心概念。N - 臂老虎机问题就是这样一个经典的简化模型。在这个问题中，智能体的目标是找到能带来最高平均回报的最佳机器。为了实现这一目标，我们通常会使用 $\epsilon$- 贪心策略。

1.1 $\epsilon$- 贪心策略

$\epsilon$- 贪心策略是一种在探索和利用之间进行权衡的方法。在每一步，智能体有 $1 - \epsilon$ 的概率选择当前估计价值最高的动作（利用），有 $\epsilon$ 的概率随机选择一个动作（探索）。动作是指智能体在特定状态下可以采取的行为，而动作的价值则是该动作在长期内预期获得的平均回报。

利用是指选择当前已知的最佳动作，以最大化即时回报；探索则是尝试不同的动作，以发现可能更好的选择。这种策略允许智能体在开始时进行大量的探索，随着时间的推移，逐渐增加利用的比例。

1.2 平均回报的维护机制

为了维护平均回报，我们可以使用一种简单的机制。假设我们已经进行了 $n$ 次试验，第 $i$ 个动作的平均回报为 $Q_i(n)$，在第 $n + 1$ 次试验中选择了动作 $a$ 并获得了回报 $r$，则动作 $a$ 的新平均回报可以通过以下公式更新：
$Q_a(n + 1) = Q_a(n) + \frac{1}{n + 1}(r - Q_a(n))$

这个公式的直观解释是，新的平均回报是旧的平均回报加上一个与当前回报和旧平均回报之差成比例的调整项。随着试验次数的增加，每次调整的幅度会逐渐减小。

1.3 初始值的设置 </

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。