Dyna - 结合模型学习和直接强化学习

本文介绍了一种结合Q-learning与模型学习的方法——TabularDyna-Q。该方法通过在环境中执行动作并记录状态转移及奖励来学习环境模型,并利用此模型进行额外的离线学习,以改善Q-learning的效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

model_free的算法可以和模型学习结合。
方法是向环境(environment)传递了S,A后获得反馈S_,R,保存这个关系,记为
S_,R = Model(S, A),如此多次就学习了model的一部分,就像是有了对外界环境的想象,如此就可以在不接触外界环境的情况下进行学习。

Q-learning和模型学习结合就是Tabular Dyna-Q方法:

Initialize Q(s,a)Q(s,a) and Model(s,a)∀s∈S and a∈A(s)Model(s,a)∀s∈S and a∈A(s)
Do forever(for each episode):
  (a) S←S← current (nonterminal) state
  (b) A←ϵ−greedy(S,Q)A←ϵ−greedy(S,Q)
  (c) Execute action AA; observe resultant reward, RR, and state, S′S′
  (d) Q(S,A)←Q(S,A)+α[R+γmaxa Q(S′,a)−Q(S,A)]Q(S,A)←Q(S,A)+α[R+γmaxa Q(S′,a)−Q(S,A)]
  (e) Model(S,A)←R,S′Model(S,A)←R,S′ (assuming deterministic environment)
  (f) Repeat n times:
   S←S← random previously observed state
   A←A← random action previously taken in SS
   R,S′←Model(S,A)R,S′←Model(S,A)
   Q(S,A)←Q(S,A)+α[R+γmaxa Q(S′,a)−Q(S,A)]Q(S,A)←Q(S,A)+α[R+γmaxa Q(S′,a)−Q(S,A)]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值