今天读一篇来自Nature最水子刊SR的作品,名字中的量子动作选择听起来非常高大上,来看看是个什么东西
[1] M. Cai, S. Xiao, J. Li, and Z. Kan, “Safe reinforcement learning under temporal logic with reward design and quantum action selection,” Sci Rep, vol. 13, no. 1, Art. no. 1, Feb. 2023, doi: 10.1038/s41598-023-28582-4.
文章目录
Outline
- reward shaping - 避免稀疏奖励
- safety value functions
- quantum action selction
- Embedded Limit-Deterministic Generalized Buchi Automaton
- tasks of infinite and finite horizons
Introduction
安全强化学习
安全强化学习是指在学习过程中避免访问不安全状态。(Comment: 在仿真场景下,这个概念其实并没有讨论的意义,只有在真实的物理环境下进行学习时才有必要讨论安全问题。)当前的方法要么对系统假设过强、要么仅考虑安全而不考虑任务进度。
基于抽象的MDP
[16] Li, X., Serlin, Z., Yang, G. & Belta, C. A formal methods approach to interpretable reinforcement learning for robotic planning. Sci. Robot. 4 (37), (2019).
这篇文章设计了基于鲁棒度的自动机并结合了CBF来辅助学习,但是只考虑有限时域的任务
[17] Hasanbeig, M., Abate, A., & Kroening, D. Cautious reinforcement learning with logical constraints. AAMAS’20: Proceedings of the 19th International Conference on Autonomous Agents and MultiAgent Systems, 483–491 (2020).
使用LDGBA来记录LTL完成状态,使用model-based safe padding技术防止系统进入不安全状态,但是不能有效描述accepting sets
量子计算
机器学习与量子计算的结合称为QML,研究的是如何将数据编码为量子状态并利用量子系统的叠加属性解决具体问题。在强化学习中,可以使用量子计算加速神经网络,从而加入DRL的学习过程。
本文工作
- 提出了一种数学上严谨的reward设计规则
- 设计model-based safe padding来提高安全性,以一定的概率下界防止智能体落入坏状态
- 用E-LDGBA编码无限时域的LTL
- 提出safety value function与传统的value function相结合
- 提出了一种基于势函数的reward-shaping方法来避免稀疏奖励
- 使用量子计算方法改进了传统RL的e-greedy动作选择
Problem Formulation
Preliminaries
在问题陈述前,先介绍一下本文中涉及的一些概念
Quantum computing
- 量子比特:0/1状态的叠加(薛定谔)状态,只有当测量的时候其0,1值才发生坍缩 ∣ q 1 > = α 0 ∣ 0 > + α 1 ∣ 1 > \left|q_1\right>=\alpha_0\left|0\right>+\alpha_1 \left|1\right> ∣q1⟩=α0∣0⟩+α1∣1⟩,其中 α 0 , α 1 \alpha_0,\alpha_1 α0,α1是两个复数,其模的平方表示坍缩为0或1的概率
- 量子状态:由n个量子比特表示的一个状态变量,有 2 n 2^n 2n中坍缩可能,因此可写为以下形式 ∣ ψ n > = ∣ q 1 q 2 … q n > = ∑ k = 0 2 n − 1 a k ∣ k > \left|\psi_n\right>=\left|q_1q_2\dots q_n\right>=\sum_{k=0}^{2^n-1}a_k\left|k\right> ∣ψn⟩=∣q1

该文提出了结合量子计算的强化学习方法,特别是利用Grover搜索算法优化动作选择,以提升安全性和效率。文章关注于在满足临时逻辑(LTL)约束的同时,设计安全奖励函数和基于嵌入式极限确定性博弈自动机(E-LDGBA)的模型,以确保智能体在无限和有限时间域的任务中避免不安全状态。
最低0.47元/天 解锁文章

2047

被折叠的 条评论
为什么被折叠?



