30、深度强化学习中的策略与优化

time3

于 2025-09-10 11:55:33 发布

阅读量34

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习的直觉之旅文章标签：深度强化学习策略学习价值学习

本文链接：https://blog.youkuaiyun.com/time3/article/details/151593885

深度学习的直觉之旅专栏收录该内容

32 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度强化学习中的策略与优化

1. 探索与利用策略

在强化学习中，探索（explore）与利用（exploit）的权衡是一个关键问题。为了平衡这两者，有两种重要策略：$\epsilon$-Greedy 和 Annealed $\epsilon$-Greedy。

1.1 $\epsilon$-Greedy 策略

$\epsilon$-Greedy 是一种简单的策略，在每一步中，智能体要么选择其推荐的最优动作，要么选择一个随机动作。选择随机动作的概率为 $\epsilon$。以下是其实现代码：

import random
import numpy as np

def epsilon_greedy_action(action_distribution,
                          epsilon=1e-1):
    action_distribution = action_distribution.detach().numpy()
    if random.random() < epsilon:
        return np.argmax(np.random.random(
           action_distribution.shape))
    else:
        return np.argmax(action_distribution)