利用熵方法学习所有可能的策略
1. 引言
深度强化学习(RL)是处理和近似复杂观测的标准工具,能产生复杂行为。不过,许多深度RL方法优化的是确定性策略,然而,学习随机策略或概率性行为往往能提高鲁棒性,更好地应对随机环境。
2. 什么是熵
香农熵(以下简称熵)是衡量随机变量所含信息量的指标,信息通过编码所有可能状态所需的比特数来计算。公式如下:
[
\mathcal{H}(X) \triangleq \mathbb{E}[I(X)] = -\sum_{x \in X} p(x) \log_b p(x)
]
其中,(X \triangleq {x_0, x_1, \cdots, x_{n - 1}}) 是随机变量,(\mathcal{H}) 是熵,(I) 是信息内容,(b) 是对数的底数(常用的底数有 (b \triangleq 2) 表示比特,(b \triangleq 10) 表示班,(b \triangleq e) 表示奈特,比特是最常用的底数)。
例如,一枚硬币有两种状态(假设不立着),可用 0 和 1 编码,所以硬币的熵(以比特为单位)是 1。一个骰子有六种可能状态,需要三个比特来描述(实际值是 2.5849…)。
最优控制的概率解是随机策略。为了准确表示动作 - 概率分布,必须对足够多的状态和动作进行采样。可以像 UCB 那样测量访问过的状态和动作数量,但这与策略没有直接关联,UCB 是一种探索策略,而非策略的一部分。可以使用熵等代理指标来衡量策略的分布情况,并将其作为惩罚项纳入目标函数。
3. 最大熵强化学习
最大化策略的熵能迫使智能体访问所有
超级会员免费看
订阅专栏 解锁全文
1511

被折叠的 条评论
为什么被折叠?



