深度强化学习中的策略与优化
1. 探索与利用策略
在强化学习中,探索(explore)与利用(exploit)的权衡是一个关键问题。为了平衡这两者,有两种重要策略:$\epsilon$-Greedy 和 Annealed $\epsilon$-Greedy。
1.1 $\epsilon$-Greedy 策略
$\epsilon$-Greedy 是一种简单的策略,在每一步中,智能体要么选择其推荐的最优动作,要么选择一个随机动作。选择随机动作的概率为 $\epsilon$。以下是其实现代码:
import random
import numpy as np
def epsilon_greedy_action(action_distribution,
epsilon=1e-1):
action_distribution = action_distribution.detach().numpy()
if random.random() < epsilon:
return np.argmax(np.random.random(
action_distribution.shape))
else:
return np.argmax(action_distribution)
1.2 Annealed $\epsilon$-Greedy 策略
在训练强化学习模型时,通常希望在开始阶段进行更多的探索,因为模型对环境了解
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



