3、深度强化学习算法概述

脸先着地天使

于 2025-08-30 11:10:30 发布

阅读量16

点赞数

CC 4.0 BY-SA版权

分类专栏：深度强化学习实战指南文章标签：深度强化学习 MDP控制循环策略函数

本文链接：https://blog.youkuaiyun.com/jwt8token/article/details/152340308

深度强化学习实战指南专栏收录该内容

35 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度强化学习算法概述

1. MDP控制循环

在强化学习中，MDP（马尔可夫决策过程）控制循环是描述智能体与环境交互的基础算法，如下所示：

Algorithm 1.1
MDP control loop
1: Given an env (environment) and an agent:
2: for episode = 0, . . . , MAX_EPISODE do
3:
    state = env.reset()
4:
    agent.reset()
5:
    for t = 0, . . . , T do
6:
        action = agent.act(state)
7:
        state, reward = env.step(action)
8:
        agent.update(action, state, reward)
9:
        if env.done() then
10:
            break
11:
        end if
12:
    end for
13: end for

该算法表达了智能体与环境在多个回合和时间步上的交互过程。每个回合开始时，环境和智能体都会被重置（第3 - 4行），重置后环境会产生初始状态。然后智能体根据当前状态产生动作（第6行），环境根据该动作产生下一个状态和奖励（第7行），进入下一个时间步。 agent.act - env.step 循环会一直持续，直到达到最大时间步 T 或者环境终止。 agent.upda