深度强化学习系统的验证与性能评估
1. 研究背景与实验设置
在深度强化学习(DRL)领域,确保系统的可靠性、可验证性和高性能是重要的研究目标。本次研究聚焦于几种经典的非线性系统,包括B1、B2和Tora系统。其中,B1和B2系统中,智能体需从预设的初始状态空间到达目标区域;Tora系统中,小车通过弹簧连接到墙壁,可在无摩擦表面自由移动,车内有可绕轴自由旋转的臂,控制器的目标是将系统稳定在所有系统变量都为0的平衡状态。
研究采用相同的系统配置和训练参数,涵盖神经网络架构、系统动力学、时间间隔、DRL算法以及训练回合数。为评估和比较不同方法训练的DRL系统的可靠性、可验证性和性能,选择了三个指标:预定义属性的满足情况、累积奖励和鲁棒性。其中,预定义属性的满足情况关乎可靠性和可验证性,累积奖励和鲁棒性则侧重于性能评估。累积奖励是评估训练系统性能的重要指标,因为最大化累积奖励是学习的目标;鲁棒性要求系统能抵抗环境和对抗攻击的干扰。实验在运行Ubuntu 18.04的工作站上进行,配备32核AMD Ryzen Threadripper CPU @ 3.7 GHz和128 GB RAM。
2. 可靠性和可验证性比较
2.1 预定义系统属性
针对每个任务,根据安全和功能要求预定义系统属性。以山地车为例,功能要求是将车开到山顶,可定义原子命题 p > 0.45 表示车到达山顶,进而用ACTL公式 Φ1 = AF(p > 0.45) 表示活性属性;安全要求如车在位置0.2附近(偏差0.05范围内)时速度必须大于0.02,可用ACTL公式 Φ2 表示。其他任务的属性也类似形式化,具体如下表所示:
| Task ID | ACTL
超级会员免费看
订阅专栏 解锁全文
15万+

被折叠的 条评论
为什么被折叠?



