17、基于学习的深度强化学习智能体测试

最新推荐文章于 2025-09-10 22:12:18 发布

mmm90

最新推荐文章于 2025-09-10 22:12:18 发布

阅读量49

点赞数

CC 4.0 BY-SA版权

分类专栏： AI与现实的鸿沟文章标签：深度强化学习自动机学习概率模型检查

本文链接：https://blog.youkuaiyun.com/mmm90/article/details/152645454

AI与现实的鸿沟专栏收录该内容

48 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于学习的深度强化学习智能体测试

1 引言

在强化学习（RL）领域，确保训练好的策略的安全性和可靠性至关重要。本文介绍了一种结合随机自动机学习、概率模型检查、差分测试和统计测试的方法，用于测试RL策略，并通过任天堂游戏《超级马里奥兄弟》（SMB）的实验进行了评估。

2 测试用例生成

2.1 测试用例规格定义

测试用例生成是将测试目标的规格转换为可执行的测试用例。测试用例规格定义为元组 ⟨T, tl, m, α⟩，其中：
- T ⊆ O 指定要覆盖的抽象观察。
- tl 指定测试长度。
- m 指定为达到测试目标尝试的最大测试用例执行次数。
- α 指定测试策略之间差异的期望显著性水平。

2.2 测试用例生成流程

为了将测试用例规格转换为可执行的测试用例，需要计算在学习到的环境抽象马尔可夫决策过程（MDP）$M_{abs}$ 上的策略，该策略最大化到达由 $t \in T$ 标记的状态的概率。具体步骤如下：
1. 设 $S_{abs}$ 为 $M_{abs}$ 的状态，$s \in S_{abs}$，$p_{s,a} = P_{max}(F T|s, a)$ 是从状态 $s$ 执行动作 $a$ 时到达由 $t \in T$ 标记的状态的最大概率，其中 $F$ 表示最终操作符。
2. 从测试用例规格 ⟨T, tl, m, α⟩ 生成的测试用例是元组 ⟨$\pi_T$, tl, m, α⟩，其中 $\pi_T$ 是一个无记忆、确定性的策略，在每个抽象状态 $s \in S_{abs}$ 中选择最大化 $p_{s,a}$ 的动作 $a$。
3. 可