深度强化学习算法概述
1. MDP控制循环
在强化学习中,MDP(马尔可夫决策过程)控制循环是描述智能体与环境交互的基础算法,如下所示:
Algorithm 1.1
MDP control loop
1: Given an env (environment) and an agent:
2: for episode = 0, . . . , MAX_EPISODE do
3:
state = env.reset()
4:
agent.reset()
5:
for t = 0, . . . , T do
6:
action = agent.act(state)
7:
state, reward = env.step(action)
8:
agent.update(action, state, reward)
9:
if env.done() then
10:
break
11:
end if
12:
end for
13: end for
该算法表达了智能体与环境在多个回合和时间步上的交互过程。每个回合开始时,环境和智能体都会被重置(第3 - 4行),重置后环境会产生初始状态。然后智能体根据当前状态产生动作(第6行),环境根据该动作产生下一个状态和奖励(第7行),进入下一个时间步。 agent.act - env.step 循环会一直持续,直到达到最大时间步 T 或者环境终止。 agent.upda
超级会员免费看
订阅专栏 解锁全文

6503

被折叠的 条评论
为什么被折叠?



