26、CEGAR驱动的深度强化学习方法详解

CEGAR驱动的深度强化学习方法详解

1. 框架概述

我们的框架主要由训练、验证和细化三个部分组成,整体流程如下:
- 训练部分 :在有限的抽象状态集合上训练深度强化学习(DRL)系统。首先将实际状态映射到对应的抽象状态,然后输入到神经网络中计算相应的动作。将该动作应用于实际状态,使系统过渡到下一个状态。根据预定义的奖励函数累积奖励,并以与传统DRL算法相同的方式更新神经网络。
- 验证部分 :基于训练好的神经网络,在有限的抽象状态空间上构建Kripke结构。然后验证ACTL公式Φ中预定义的期望属性。如果所有属性都被验证有效,则停止训练,得到一个DRL系统。
- 细化部分 :如果某些属性被验证无效,则进入细化部分。验证失败时会返回反例,即属性被违反的抽象状态。将这些状态细分为更细粒度的子状态,并替换那些不良状态。然后在细化后的抽象状态空间上继续训练系统,并重复整个过程。

这个框架无缝集成了训练、验证和细化,形成了一种由反例引导的抽象和细化驱动的验证循环DRL方法。我们从粗略的抽象开始,在每次训练周期后,对系统进行模型检查,验证所有预定义的属性。如果所有属性都通过验证,则停止训练,得到一个经过验证的系统;否则,返回反例,细化抽象状态空间以进行进一步训练。经过多次迭代,最终训练出一个所有预定义属性都经过严格验证的DRL系统。

下面是该框架的mermaid流程图:

graph LR
    classDef startend fill:#F5EBFF,strok
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值