【阅读随笔】Safe reinforcement learning under temporal logic with reward design and quantum action selecti

该文提出了结合量子计算的强化学习方法,特别是利用Grover搜索算法优化动作选择,以提升安全性和效率。文章关注于在满足临时逻辑(LTL)约束的同时,设计安全奖励函数和基于嵌入式极限确定性博弈自动机(E-LDGBA)的模型,以确保智能体在无限和有限时间域的任务中避免不安全状态。

今天读一篇来自Nature最水子刊SR的作品,名字中的量子动作选择听起来非常高大上,来看看是个什么东西

[1] M. Cai, S. Xiao, J. Li, and Z. Kan, “Safe reinforcement learning under temporal logic with reward design and quantum action selection,” Sci Rep, vol. 13, no. 1, Art. no. 1, Feb. 2023, doi: 10.1038/s41598-023-28582-4.

Outline

  • reward shaping - 避免稀疏奖励
  • safety value functions
  • quantum action selction
  • Embedded Limit-Deterministic Generalized Buchi Automaton
  • tasks of infinite and finite horizons

Introduction

安全强化学习

安全强化学习是指在学习过程中避免访问不安全状态。(Comment: 在仿真场景下,这个概念其实并没有讨论的意义,只有在真实的物理环境下进行学习时才有必要讨论安全问题。)当前的方法要么对系统假设过强、要么仅考虑安全而不考虑任务进度。

基于抽象的MDP

[16] Li, X., Serlin, Z., Yang, G. & Belta, C. A formal methods approach to interpretable reinforcement learning for robotic planning. Sci. Robot. 4 (37), (2019).
这篇文章设计了基于鲁棒度的自动机并结合了CBF来辅助学习,但是只考虑有限时域的任务

[17] Hasanbeig, M., Abate, A., & Kroening, D. Cautious reinforcement learning with logical constraints. AAMAS’20: Proceedings of the 19th International Conference on Autonomous Agents and MultiAgent Systems, 483–491 (2020).
使用LDGBA来记录LTL完成状态,使用model-based safe padding技术防止系统进入不安全状态,但是不能有效描述accepting sets

量子计算

机器学习与量子计算的结合称为QML,研究的是如何将数据编码为量子状态并利用量子系统的叠加属性解决具体问题。在强化学习中,可以使用量子计算加速神经网络,从而加入DRL的学习过程。

本文工作

  • 提出了一种数学上严谨的reward设计规则
  • 设计model-based safe padding来提高安全性,以一定的概率下界防止智能体落入坏状态
  • 用E-LDGBA编码无限时域的LTL
  • 提出safety value function与传统的value function相结合
  • 提出了一种基于势函数的reward-shaping方法来避免稀疏奖励
  • 使用量子计算方法改进了传统RL的e-greedy动作选择

Problem Formulation

Preliminaries

在问题陈述前,先介绍一下本文中涉及的一些概念

Quantum computing

  • 量子比特:0/1状态的叠加(薛定谔)状态,只有当测量的时候其0,1值才发生坍缩 ∣ q 1 > = α 0 ∣ 0 > + α 1 ∣ 1 > \left|q_1\right>=\alpha_0\left|0\right>+\alpha_1 \left|1\right> q1=α00+α11,其中 α 0 , α 1 \alpha_0,\alpha_1 α0,α1是两个复数,其模的平方表示坍缩为0或1的概率
  • 量子状态:由n个量子比特表示的一个状态变量,有 2 n 2^n 2n中坍缩可能,因此可写为以下形式 ∣ ψ n > = ∣ q 1 q 2 … q n > = ∑ k = 0 2 n − 1 a k ∣ k > \left|\psi_n\right>=\left|q_1q_2\dots q_n\right>=\sum_{k=0}^{2^n-1}a_k\left|k\right> ψn=q1
### 回答1: 安全强化学习是一种强化学习的方法,旨在确保智能体在学习过程中不会造成不良影响。它通过限制智能体的行为,以避免不安全的行为,并在学习过程中监测和纠正不安全的行为。安全强化学习在实际应用中具有重要意义,可以确保智能体在执行任务时不会对环境或人类造成伤害。 ### 回答2: 安全强化学习Safe Reinforcement Learning,简称SRL)是一种强化学习的变体,其目标是在机器学习应用中确保系统的安全性和稳定性。传统的强化学习可能会出现不稳定性和危险性,因为它依赖于与环境的交互,而这种交互可能导致系统错误地采取行动,导致意外的结果。在这种情况下,SRL的任务就是降低系统的风险,从而保证系统在执行任务的过程中能够避免不良后果。 SRL的一种实现方式是采用约束优化的方法,即在强化学习算法的基础上增加了额外的约束条件。这些额外的条件通常是针对系统的安全性和稳定性,约束代表了系统在执行任务时应该避免的行为或结果。这些约束可以是预定义的,也可以是动态生成的,这取决于应用场景和任务特定的要求。 除了约束优化之外,另一种实现SRL的方法是使用模型检测技术。模型检测技术可以在强化学习算法的模型中插入额外的限制,使得算法在训练过程中能够检测到潜在的安全问题,并且可以在出现问题的情况下停止或者进行故障恢复。 总的来说,安全强化学习是在强化学习的基础上增加了额外的安全和稳定的限制,从而能够应对更加复杂和危险的应用场景。这种技术的发展将会推动机器学习在更加广泛领域的使用,并且提高应用系统的安全性和稳定性。 ### 回答3: 安全加强学习Safe Reinforcement Learning,简称SRL)是强化学习中的一个重要分支,旨在通过减少意外风险,确保强化学习算法在实际部署时的安全性。安全加强学习的发展是由于在很多实际应用中,往往没有完整的模型,且强化学习在实际环境中可能会存在意外的、不可预测的风险,例如机器人碰撞、交通事故等。 安全加强学习的核心思想是在保证最小化风险的同时,最大化性能的提升。其中,风险的定义是在目标之外的不可控制的不良事件或结果,可以包括利润萎缩、损失或人身伤害。安全加强学习算法需要在学习过程中对风险进行评估和限制,并在实际部署时对算法进行验证。 目前,安全加强学习的研究已经有了很多进展和应用。例如在医疗应用中,安全加强学习可以用于人工药物筛选,以提高生产率和安全性;在智能驾驶中,安全加强学习可以用于构建自动驾驶汽车,以提高安全性和减少交通事故发生率等。 总之,安全加强学习是强化学习中的一个热门研究方向,其目标是在保证最小化风险的同时,实现算法的高性能。随着技术不断发展,安全加强学习有望在很多领域发挥重要作用,为人工智能技术的发展带来更多新的创新。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值