4.3 强化学习实战练习:从理论到实践的桥梁
🎯 学习目标:通过动手实践,深入理解强化学习的基本概念和Q-Learning算法。完成本练习后,你将能够独立实现简单的强化学习算法,并将其应用于解决实际问题。
实践一:实现一个简单的Q-Learning算法
在第一个练习中,我们将从零开始实现一个Q-Learning算法,解决经典的"走迷宫"问题。
问题描述
我们有一个5x5的网格世界,智能体从左下角(4,0)出发,目标是到达右上角(0,4)的宝藏位置。网格中可能有一些障碍物,智能体需要绕过这些障碍物找到最短路径。
S: 起点 (Start)
G: 目标 (Goal)
X: 障碍物 (Obstacle)
.: 可通行区域 (Free space)
地图布局:
. . . . .
. X . X .
. . . . .
. X . X .
S . . . G
动作空间
智能体可以执行4个动作:
- 0: 向上移动
- 1: 向右移动
- 2: 向下移动
- 3: 向左移动
如果动作会导致智能体移出网格或撞到障碍物,智能体位置不会改变。
奖励机制
- 到达目标位置:+10 (终止状态
订阅专栏 解锁全文
1445

被折叠的 条评论
为什么被折叠?



