Zhe Xu and Ufuk Topcu. 2019. Transfer of temporal logic formulas in reinforcement learning. In Proceedings of the 28th International Joint Conference on Artificial Intelligence (IJCAI’19). AAAI Press, 4010–4018.
这是一篇将inference和learning结合起来的文章,并且利用timed automata建立了比τ\tauτ-MDP 更高层的抽象。
文章内容:
-
从轨迹中推理出MITL公式
-
判断是否可以迁移
-
对于原任务和目标任务,对每个子公式构建timed automaton
-
原任务在构建的automaton上进行强化学习
-
建立原任务和目标任务的映射,把Q表迁移至目标任务
-
在迁移过来的Q表的基础上继续进行强化学习
结果:在两个相近的任务间进行迁移学习,采样效率最多能提高一个量级
1 Intro
高层信息的结合能够大大提高强化学习的采样效率
源任务:先去绿色区域待够4秒,再在40秒内到达黄色区域
目标任务:先去绿色区域待够5秒,再在40秒内到达黄色区域
机器人事先不知道绿色和黄色区域的位置
40秒时完成任务奖励100,否则惩罚-10
判断能否迁移:1. 没有相似性判断标准 2. 逻辑相似性是隐形的,要从数据中才能看出来 3. 没有自动化的迁移首端
2 前提
2.1 MITL
timed word: 一段轨迹,每个元素为当前时刻状态满足的原子命题的子集
“A timed word generated by a trajectory s0:L is defined as a sequence (L(st1 ), t1), . . . , (L(stm ), tm),” (Xu and Topcu, 2019, p. 4) (pdf)
timed word符合 Φ\PhiΦ=轨迹符合STL
2.2 Timed Automaton
CCC clock variable
φC\varphi_CφC clock constraints:时间的取值范围
Def. 1: