【阅读随笔】Transfer of temporal logic formulas in reinforcement learning

该文提出将时空逻辑(MITL)与强化学习结合,通过定时自动机对任务进行高层次抽象。通过推理MITL公式来判断任务迁移的可能性,利用决策树进行公式推理,并在源任务的Q表基础上进行Q-learning,实现任务迁移,提高采样效率。实验表明,这种方法在相近任务间迁移学习时能显著提升效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Zhe Xu and Ufuk Topcu. 2019. Transfer of temporal logic formulas in reinforcement learning. In Proceedings of the 28th International Joint Conference on Artificial Intelligence (IJCAI’19). AAAI Press, 4010–4018.

这是一篇将inference和learning结合起来的文章,并且利用timed automata建立了比τ\tauτ-MDP 更高层的抽象。

文章内容:

  1. 从轨迹中推理出MITL公式

  2. 判断是否可以迁移

  3. 对于原任务和目标任务,对每个子公式构建timed automaton

  4. 原任务在构建的automaton上进行强化学习

  5. 建立原任务和目标任务的映射,把Q表迁移至目标任务

  6. 在迁移过来的Q表的基础上继续进行强化学习

结果:在两个相近的任务间进行迁移学习,采样效率最多能提高一个量级


1 Intro

高层信息的结合能够大大提高强化学习的采样效率

源任务:先去绿色区域待够4秒,再在40秒内到达黄色区域

目标任务:先去绿色区域待够5秒,再在40秒内到达黄色区域

机器人事先不知道绿色和黄色区域的位置

40秒时完成任务奖励100,否则惩罚-10

判断能否迁移:1. 没有相似性判断标准 2. 逻辑相似性是隐形的,要从数据中才能看出来 3. 没有自动化的迁移首端


2 前提

2.1 MITL

timed word: 一段轨迹,每个元素为当前时刻状态满足的原子命题的子集

“A timed word generated by a trajectory s0:L is defined as a sequence (L(st1 ), t1), . . . , (L(stm ), tm),” (Xu and Topcu, 2019, p. 4) (pdf)

timed word符合 Φ\PhiΦ=轨迹符合STL

2.2 Timed Automaton

CCC clock variable

φC\varphi_CφC clock constraints:时间的取值范围

Def. 1:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值