【阅读随笔】Transfer of temporal logic formulas in reinforcement learning

ALL 2 WELL

已于 2023-06-12 16:24:02 修改

阅读量484

点赞数

CC 4.0 BY-SA版权

分类专栏：时序逻辑文章标签：人工智能算法学习

于 2023-03-03 09:51:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/WSQ_2000/article/details/129313842

该文提出将时空逻辑（MITL）与强化学习结合，通过定时自动机对任务进行高层次抽象。通过推理MITL公式来判断任务迁移的可能性，利用决策树进行公式推理，并在源任务的Q表基础上进行Q-learning，实现任务迁移，提高采样效率。实验表明，这种方法在相近任务间迁移学习时能显著提升效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Zhe Xu and Ufuk Topcu. 2019. Transfer of temporal logic formulas in reinforcement learning. In Proceedings of the 28th International Joint Conference on Artificial Intelligence (IJCAI’19). AAAI Press, 4010–4018.

这是一篇将inference和learning结合起来的文章，并且利用timed automata建立了比 $τ\tau$ -MDP 更高层的抽象。

文章内容：

从轨迹中推理出MITL公式
判断是否可以迁移
对于原任务和目标任务，对每个子公式构建timed automaton
原任务在构建的automaton上进行强化学习
建立原任务和目标任务的映射，把Q表迁移至目标任务
在迁移过来的Q表的基础上继续进行强化学习

结果：在两个相近的任务间进行迁移学习，采样效率最多能提高一个量级

1 Intro

高层信息的结合能够大大提高强化学习的采样效率

源任务：先去绿色区域待够4秒，再在40秒内到达黄色区域

目标任务：先去绿色区域待够5秒，再在40秒内到达黄色区域

机器人事先不知道绿色和黄色区域的位置

40秒时完成任务奖励100，否则惩罚-10

判断能否迁移：1. 没有相似性判断标准 2. 逻辑相似性是隐形的，要从数据中才能看出来 3. 没有自动化的迁移首端

2 前提

2.1 MITL

timed word: 一段轨迹，每个元素为当前时刻状态满足的原子命题的子集

“A timed word generated by a trajectory s0:L is defined as a sequence (L(st1 ), t1), . . . , (L(stm ), tm),” (Xu and Topcu, 2019, p. 4) (pdf)

timed word符合 $Φ\Phi$ =轨迹符合STL

2.2 Timed Automaton

$C$ clock variable

$φC\varphi_C$ clock constraints：时间的取值范围

Def. 1:

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。