Zhe Xu and Ufuk Topcu. 2019. Transfer of temporal logic formulas in reinforcement learning. In Proceedings of the 28th International Joint Conference on Artificial Intelligence (IJCAI’19). AAAI Press, 4010–4018.
这是一篇将inference和learning结合起来的文章,并且利用timed automata建立了比τ\tauτ-MDP 更高层的抽象。
文章内容:
-
从轨迹中推理出MITL公式
-
判断是否可以迁移
-
对于原任务和目标任务,对每个子公式构建timed automaton
-
原任务在构建的automaton上进行强化学习
-
建立原任务和目标任务的映射,把Q表迁移至目标任务
-
在迁移过来的Q表的基础上继续进行强化学习
结果:在两个相近的任务间进行迁移学习,采样效率最多能提高一个量级
1 Intro
高层信息的结合能够大大提高强化学习的采样效率
源任务:先去绿色区域待够4秒,再在40秒内到达黄色区域
目标任务:先去绿色区域待够5秒,再在40秒内到达黄色区域
机器人事先不知道绿色和黄色区域的位置
40秒时完成任务奖励100,否则惩罚-10
判断能否迁移:1. 没有相似性判断标准 2. 逻辑相似性是隐形的,要从数据中才能看出来 3. 没有自动化的迁移首端
2 前提
2.1 MITL
timed word: 一段轨迹,每个元素为当前时刻状态满足的原子命题的子集
“A timed word generated by a trajectory s0:L is defined as a sequence (L(st1 ), t1), . . . , (L(stm ), tm),” (Xu and Topcu, 2019, p. 4) (pdf)
timed word符合 Φ\PhiΦ=轨迹符合STL
2.2 Timed Automaton
CCC clock variable
φC\varphi_CφC clock constraints:时间的取值范围
Def. 1:

该文提出将时空逻辑(MITL)与强化学习结合,通过定时自动机对任务进行高层次抽象。通过推理MITL公式来判断任务迁移的可能性,利用决策树进行公式推理,并在源任务的Q表基础上进行Q-learning,实现任务迁移,提高采样效率。实验表明,这种方法在相近任务间迁移学习时能显著提升效率。
最低0.47元/天 解锁文章
3651

被折叠的 条评论
为什么被折叠?



