强化学习中的探索与利用算法及Q学习代码实现
1. 探索与利用概率决策算法
在强化学习中,如何平衡探索(explore)和利用(exploit)是一个关键问题。以下介绍几种常见的算法。
1.1 Epsilon - Greedy算法
Epsilon - Greedy是最流行且最简单的算法,用于在“探索”和“利用”阶段之间进行权衡。这里有一个常数“epsilon”(ε),它代表了智能体在每一轮中决定“探索”的概率。
例如,如果ε = 0.1,那么在任何一轮中,智能体有10%的概率采取随机行动(探索),有90%的概率“利用”现有的Q函数估计值,即根据Q函数中截至该迭代更新的最佳值估计贪婪地选择行动,这就是Epsilon - Greedy名称的由来。
需要注意的是,epsilon是一个常数,且在“探索”时行动选择是随机的。“epsilon”的值一旦选定,在行为策略中就保持不变。“epsilon”越大,智能体越有可能多次“探索”随机行动;“epsilon”越小,智能体越有可能多次贪婪地“利用”估计值/Q函数。因此,“epsilon”的选择应基于底层马尔可夫决策过程(MDP)的“确定性”。MDP越“确定”,需要探索的就越少,因此“epsilon”的值应相应较小;反之,MDP越“随机”,需要探索的就越多,“epsilon”的值应相应较大。
以下是一个简单的流程说明:
1. 设定epsilon的值。
2. 在每一轮中,生成一个随机数。
3. 如果随机数小于epsilon,智能体进行探索(随机选择行动)。
4. 如果随机数大于等于epsilon,智能体进行利用(根据Q函数选择最佳行动)。
超级会员免费看
订阅专栏 解锁全文
1682

被折叠的 条评论
为什么被折叠?



