17、基于学习的深度强化学习智能体测试

基于学习的深度强化学习智能体测试

1 引言

在强化学习(RL)领域,确保训练好的策略的安全性和可靠性至关重要。本文介绍了一种结合随机自动机学习、概率模型检查、差分测试和统计测试的方法,用于测试RL策略,并通过任天堂游戏《超级马里奥兄弟》(SMB)的实验进行了评估。

2 测试用例生成

2.1 测试用例规格定义

测试用例生成是将测试目标的规格转换为可执行的测试用例。测试用例规格定义为元组 ⟨T, tl, m, α⟩,其中:
- T ⊆ O 指定要覆盖的抽象观察。
- tl 指定测试长度。
- m 指定为达到测试目标尝试的最大测试用例执行次数。
- α 指定测试策略之间差异的期望显著性水平。

2.2 测试用例生成流程

为了将测试用例规格转换为可执行的测试用例,需要计算在学习到的环境抽象马尔可夫决策过程(MDP)$M_{abs}$ 上的策略,该策略最大化到达由 $t \in T$ 标记的状态的概率。具体步骤如下:
1. 设 $S_{abs}$ 为 $M_{abs}$ 的状态,$s \in S_{abs}$,$p_{s,a} = P_{max}(F T|s, a)$ 是从状态 $s$ 执行动作 $a$ 时到达由 $t \in T$ 标记的状态的最大概率,其中 $F$ 表示最终操作符。
2. 从测试用例规格 ⟨T, tl, m, α⟩ 生成的测试用例是元组 ⟨$\pi_T$, tl, m, α⟩,其中 $\pi_T$ 是一个无记忆、确定性的策略,在每个抽象状态 $s \in S_{abs}$ 中选择最大化 $p_{s,a}$ 的动作 $a$。
3. 可

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值