55、强化学习：原理、挑战与算法实践

人间计算器

于 2025-08-21 09:41:41 发布

阅读量45

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习的视觉之旅文章标签：强化学习智能体环境处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/swift5iosmith/article/details/151036109

深度学习的视觉之旅专栏收录该内容

65 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习：原理、挑战与算法实践

1. 强化学习流程步骤

1.1 步骤二：环境处理与状态更新

在强化学习过程的步骤二中，首先要计算新的状态。环境会处理智能体的动作，生成新的状态，并处理这一变化带来的信息。环境将新状态保存到状态变量中，这样当智能体下次选择动作时，这些变量就能反映新的环境。同时，环境会根据新状态确定智能体下次可采取的动作，旧的状态和可用动作会被新的版本完全替代。最后，环境会提供一个奖励信号，告知智能体其上次选择的动作有多“好”，这里“好”的含义取决于整个系统的目标。例如在游戏中，好的动作是能让玩家占据更有利位置甚至获胜的动作；在电梯调度系统中，好的动作可能是能使等待时间最短的动作。

1.2 步骤三：智能体自我更新

步骤三如图所示，智能体根据奖励值更新其私有信息和策略参数，以便下次遇到相同情况时，能基于这次的选择继续学习。完成这一步后，智能体可能会安静等待，直到环境提示它再次采取行动；也可以立即开始规划下一步动作，这在奖励先于新状态完全计算出来的实时系统中尤为有用。

智能体通常不会简单地将每个奖励存入私有信息，而是会对其进行处理，以尽可能提取更多价值，这可能还涉及改变其他动作的值。比如在游戏获胜并获得最终奖励后，我们可能会将部分奖励分配给导致胜利的每个动作。

强化学习的目标是帮助智能体从反馈中学习，选择能带来最佳奖励的动作。无论是游戏获胜、电梯调度、疫苗设计还是机器人移动，我们都希望创建一个能从经验中学习的智能体，使其在操纵环境以获得积极奖励方面表现得尽可能出色。

2. 整体视角下的关键问题

2.1 可观测性

当智能体更新其策略时，它可

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。