【阅读随笔】Reinforcement Learning for Signal Temporal Logic using Funnel-Based Approach

D. Muniraj, K. G. Vamvoudakis, and M. Farhood, “Enforcing Signal Temporal Logic Specifications in Multi-Agent Adversarial Environments: A Deep Q-Learning Approach,” in 2018 IEEE Conference on Decision and Control (CDC), 2018, pp. 4141–4146. doi: 10.1109/CDC.2018.8618746.

Outline

  • 用funnel-based解决tractability问题,同时顾及了robustness

  • 适用于任意非线性系统

  • 使用DQN强化学习算法

  • 适用于以下STL约束F/G/FG
    在这里插入图片描述

(Saxena et al., 2022, p. 4)


Remark

  • 不用把所有的历史信息放入决策过程中,只用到了当前状态的鲁棒度和时间

  • Funnel相当于是用一种启发式的方法限制了robustness的大小,对于eventually这样的算子强行启发出了过零点,有一点点扯

  • 强化学习的作用不是很清晰,reward看起来给的是单步reward,但是funnel函数中存在需要整条轨迹才能确定的参数

  • 所谓的time-a

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值