基于学习的深度强化学习智能体测试
1 引言
在强化学习(RL)领域,确保训练好的策略的安全性和可靠性至关重要。本文介绍了一种结合随机自动机学习、概率模型检查、差分测试和统计测试的方法,用于测试RL策略,并通过任天堂游戏《超级马里奥兄弟》(SMB)的实验进行了评估。
2 测试用例生成
2.1 测试用例规格定义
测试用例生成是将测试目标的规格转换为可执行的测试用例。测试用例规格定义为元组 ⟨T, tl, m, α⟩,其中:
- T ⊆ O 指定要覆盖的抽象观察。
- tl 指定测试长度。
- m 指定为达到测试目标尝试的最大测试用例执行次数。
- α 指定测试策略之间差异的期望显著性水平。
2.2 测试用例生成流程
为了将测试用例规格转换为可执行的测试用例,需要计算在学习到的环境抽象马尔可夫决策过程(MDP)$M_{abs}$ 上的策略,该策略最大化到达由 $t \in T$ 标记的状态的概率。具体步骤如下:
1. 设 $S_{abs}$ 为 $M_{abs}$ 的状态,$s \in S_{abs}$,$p_{s,a} = P_{max}(F T|s, a)$ 是从状态 $s$ 执行动作 $a$ 时到达由 $t \in T$ 标记的状态的最大概率,其中 $F$ 表示最终操作符。
2. 从测试用例规格 ⟨T, tl, m, α⟩ 生成的测试用例是元组 ⟨$\pi_T$, tl, m, α⟩,其中 $\pi_T$ 是一个无记忆、确定性的策略,在每个抽象状态 $s \in S_{abs}$ 中选择最大化 $p_{s,a}$ 的动作 $a$。
3. 可
超级会员免费看
订阅专栏 解锁全文
1521

被折叠的 条评论
为什么被折叠?



