51、复杂环境决策中的强化学习

原创于 2025-11-18 10:06:10 发布 · 18 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#强化学习 #动态规划 #蒙特卡罗

掌握机器学习核心技能专栏收录该内容

53 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

复杂环境决策中的强化学习

1. 强化学习算法概述

强化学习中有一系列学习算法。首先是动态规划，它假设环境的转移动态（即 $p(s’,r|s, a)$）是已知的。但在大多数强化学习问题中，情况并非如此。为解决环境动态未知的问题，人们开发了通过与环境交互进行学习的强化学习技术，包括蒙特卡罗（MC）、时间差分（TD）学习，以及日益流行的 Q - 学习和深度 Q - 学习方法。以下是强化学习算法的发展历程：

graph LR
    A[动态规划] --> B[MC学习]
    B --> C[TD学习]
    C --> D[Q - 学习]
    C --> E[深度Q - 学习]

2. 动态规划

动态规划解决强化学习问题基于以下假设：
- 我们完全了解环境动态，即所有转移概率 $p(s’,r’|s, a)$ 已知。
- 智能体的状态具有马尔可夫性质，即下一个动作和奖励仅取决于当前状态和当前时刻所做的动作选择。

动态规划虽不是解决强化学习问题的实用方法，因为它假设对环境动态有全面了解，这在大多数实际应用中不现实。但从教育角度看，它有助于以简单方式引入强化学习，并推动更高级复杂算法的使用。其主要有两个目标：
1. 获取真实的状态价值函数 $v_{\pi}(s)$ ：此任务也称为预测任务，通过策略评估完成。
2. 找到最优价值函数 $v^*(s)$ ：通过广义策略迭代实现。