【强化学习篇】--强化学习从初识到应用

强化学习基础概念

最新推荐文章于 2025-10-14 19:38:29 发布

原创最新推荐文章于 2025-10-14 19:38:29 发布 · 3.9k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

强化学习专栏收录该内容

2 篇文章

订阅专栏

本文介绍了强化学习的基本概念，包括智能体(agent)、状态(state)、行为(action)、奖励(reward)和策略(policy)等核心要素，并解释了马尔科夫决策过程如何应用于强化学习场景中。

一、前述

强化学习是学习一个最优策略(policy)，可以让本体(agent)在特定环境(environment)中，根据当前的状态(state)，做出行动(action)，从而获得最大回报(G or return)。

通俗点说：学习系统没有像很多其它形式的机器学习方法一样被告知应该做出什么行为，必须在尝试了之后才能发现哪些行为会导致奖励的最大化，当前的行为可能不仅仅会影响即时奖励，还会影响下一步的奖励以及后续的所有奖励。

二、具体

1、相关定义

智能体 (agent)：我们要操控的实物。比如上述中的车。

状态 (state)：当前什么样的环境状态。

行为 (action)：下一步的操作。

奖励：对不同的操作结果，都有衡量指标，一个奖励值。

策略：一系列相关行为的组合达到最大的一个奖励值，就是一个策略。

强化学习的过程：先行动，再观察再行动再观测…

每一个动作（action）都能影响代理将来的状态（state），通过一个标量的奖励（reward）信号来衡量成功，目标：选择一系列行动来最大化未来的奖励。

小车举例：

马尔科夫决策要求：

1.能够检测到理想的状态
2.可以多次尝试
3.系统的下个状态只与当前状态信息有关，而与更早之前的状态无关
在决策过程中还和当前采取的动作有关

马尔科夫决策过程由5个元素构成：

过程：

1.智能体初始状态为S0
2.选择一个动作a0
3.按概率转移矩阵Psa转移到了下一个状态S1
然后。。。

状态价值函数：

Bellman方程: 当前状态的价值和下一步的价值及当前的奖励（Reward）有关价值函数分解为当前的奖励和下一步的价值两部分，类似递归。

在某个状态（state）下最优价值函数的值，就是智能体（agent）在该状态下，所能获得的累积期望奖励值（cumulative expective rewards）的最大值.

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

L先生AI课堂 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。