50、复杂环境决策中的强化学习（上）

algae

于 2025-11-17 15:34:23 发布

阅读量10

点赞数

CC 4.0 BY-SA版权

分类专栏： Python机器学习实战精讲文章标签：强化学习马尔可夫决策过程贝尔曼方程

本文链接：https://blog.youkuaiyun.com/algae/article/details/155049483

Python机器学习实战精讲专栏收录该内容

53 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

复杂环境决策中的强化学习（上）

1. 强化学习概述

强化学习（RL）为学习任意动作序列以实现特定目标提供了强大的框架。不过，它仍是一个相对年轻且活跃的研究领域，存在许多尚未解决的挑战。训练 RL 模型具有挑战性的一个方面在于，后续的模型输入依赖于先前采取的动作，这可能导致各种问题，通常会造成学习行为不稳定。此外，RL 中的这种序列依赖性会产生所谓的延迟效应，即时间步 t 采取的动作可能会在任意数量的步骤后产生未来奖励。

2. 强化学习系统的智能体 - 环境接口

在所有强化学习示例中，都有两个不同的实体：智能体和环境。
- 智能体 ：是一个学习如何做出决策并通过采取行动与周围环境进行交互的实体。作为采取行动的结果，智能体根据环境的规则接收观察信息和奖励信号。
- 环境：是智能体之外的一切事物。它与智能体进行通信，确定智能体动作的奖励信号以及观察信息。

奖励信号是智能体与环境交互时收到的反馈，通常以标量值的形式提供，可为正或负。其目的是告知智能体表现如何。智能体接收奖励的频率取决于给定的任务或问题。例如，在国际象棋游戏中，奖励基于整个游戏的结果（胜或负）在游戏结束后确定；而在某些迷宫任务中，奖励可以在每个时间步确定。智能体的目标是在一个回合（episode）内最大化累积奖励。

智能体与环境的交互过程如下：
1. 智能体的状态是其所有变量的集合。例如，对于无人机，这些变量可能包括当前位置（经度、纬度和高度）、剩余电池电量、每个风扇的速度等。
2. 在每个时间步，智能体通过一组可用动作与环境进行交互。
3. 基于智能体在状态 𝑆