强化学习中的策略构建与语法概率泛化研究
1. 强化学习策略构建
在强化学习中,构建自我优化策略是一个关键问题。下面详细介绍一种策略构建的方法。
在每一步,我们会有两个策略:用于利用的策略 $p_t$ 和用于探索的策略 $p_e$。对于每一个步骤 $i$,策略 $p$ 要么根据 $p_t$ 采取行动($p(z_{<i}) = p_t(z_{<i})$),要么根据 $p_e$ 采取行动($p(z_{<i}) = p_e(z_{<i})$)。
具体算法步骤如下:
1. 初始化参数 :
- 设 $n = 1$,$s = 1$,$j_t = j_e = 0$。
- 对于 $s \in \mathbb{N}$,令 $\alpha_s = 2^{-s}$。
- 对于每个环境 $\nu$,找到一个实数序列 $\epsilon_{\nu}^n$,使得 $\epsilon_{\nu}^n \to 0$ 且 $\sum_{n = 1}^{\infty} \phi_{\nu}(n, \epsilon_{\nu}^n) \leq \infty$。
- 定义编号函数 $\iota : \mathbb{N} \to C$,使得每个 $\nu \in C$ 都有无限多个索引。
2. 定义测度 $\xi$ :对于所有 $i > 1$,定义 $\xi(z_{<i}) = \sum_{\nu \in C} w_{\nu} \nu(z_{ 0$ 对于所有 $\nu \in C$。
3. 定义集合 $T$
超级会员免费看
订阅专栏 解锁全文
26

被折叠的 条评论
为什么被折叠?



