【强化学习路径规划】基于栅格地图移动机器人路径规划的SARSA算法，可以更改地图大小及起始点，可以自定义障碍物附MATLAB代码-优快云博客

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。

🍎 往期回顾关注个人主页：Matlab科研工作室

🍊个人信条：格物致知,完整Matlab代码获取及仿真咨询内容私信。

🔥 内容介绍

一、引言：强化学习路径规划的核心优势与应用场景

1.1 传统路径规划的局限与 SARSA 算法价值

移动机器人路径规划的核心需求是在复杂环境中寻找 “无碰撞 - 短路径 - 平滑” 的最优轨迹，传统算法（如 A*、Dijkstra）存在明显局限：

依赖全局环境先验信息，动态障碍物场景下鲁棒性差；

路径优化依赖启发函数设计，难以自适应复杂栅格布局；

无法在线学习环境特征，二次规划效率低。

SARSA 算法的核心优势：作为时序差分（TD）强化学习的 On-policy 算法，通过 “状态 - 动作 - 奖励 - 下一状态 - 下一动作” 的在线交互学习，无需预存全局环境模型，能实时调整路径策略，特别适合动态栅格地图中的路径规划（如室内服务机器人、仓储 AGV）。

1.2 本文核心功能与框架

自定义功能支持：

地图大小可配置（如 10×10、20×20、50×50 栅格）；

起始点（S）、目标点（G）自由设定；

障碍物自定义（支持单点添加、区域填充、随机生成）。

文章框架：从 “算法原理→地图建模→代码实现→仿真验证→优化升级” 逐步拆解，确保零基础读者也能快速复现。

二、核心理论基础：SARSA 算法与栅格地图建模

2.1 SARSA 算法核心原理

（1）时序差分学习（TD Learning）

SARSA 通过 “实时采样 - 即时更新” 的方式学习动作价值函数

Q(s,a)

，无需等待 episode 结束（区别于蒙特卡洛方法），更新公式（TD (0)）：

math取消自动换行复制

Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha \left[ r_{t+1} + \gamma Q(s_{t+1},a_{t+1}) - Q(s_t,a_t) \right]

α
：学习率（01），控制更新步长；

γ
：折扣因子（0），权衡即时奖励与未来奖励；

rt+1
：从状态
st
执行动作
at
后的即时奖励；

Q(s,a)
：状态
s
下执行动作
a
的价值估计。

（2）On-policy 策略与 ε- 贪心探索

目标策略：与行为策略一致（均为 ε- 贪心策略），确保学习到的策略能直接用于决策；

ε- 贪心机制：以概率
1−ε
选择当前
Q
值最大的最优动作，以概率
ε
随机探索其他动作，平衡 “exploitation（利用）” 与 “ exploration（探索）”：

math取消自动换行复制

a_t = \begin{cases}

\arg\max_a Q(s_t,a) & \text{with probability } 1-\varepsilon \\

\text{random action} & \text{with probability } \varepsilon

\end{cases}

2.2 栅格地图建模（支持自定义配置）

（1）地图数据结构

采用二维数组表示栅格地图，定义三种状态：

0：可通行栅格（自由空间）；

1：障碍物栅格（不可通行）；

2：起始点（S）/ 目标点（G）（特殊可通行栅格）。

示例地图（10×10）：

python取消自动换行复制

# 地图初始化：map_size×map_size，默认全为0（可通行）

map_size = 10

grid_map = np.zeros((map_size, map_size), dtype=int)

# 自定义起始点（2,2）、目标点（7,7）

start = (2,2)

goal = (7,7)

# 自定义障碍物（单点+区域）

obstacles = [(3,3), (3,4), (4,3), (5,5,5,7)] # (x1,y1)为单点，(x1,y1,x2,y2)为矩形区域

（2）奖励函数设计（关键！影响路径质量）

根据路径规划需求设计奖励机制，确保机器人趋向目标、避开障碍物：

状态转移场景	奖励值 r	说明
到达目标点 G	+100	激励机器人快速抵达目标
碰撞障碍物 / 地图边界	-50	惩罚危险行为
移动到可通行栅格（非目标）	-1	惩罚冗余路径，鼓励短路径
停留原地（无效动作）	-10	避免机器人停滞不前