基于深度强化学习的无人机路径规划
在无人机路径规划领域,深度强化学习正发挥着越来越重要的作用。本文将详细介绍基于深度强化学习的无人机路径规划相关内容,包括算法设计、仿真实验及结果分析。
1. DQN算法与动作选择
传统的贪心方法在无人机路径规划中难以满足多方面需求,因此通常采用软策略进行动作选择。ε - 贪心动作选择方法是:执行动作时,以(1 - ε)的概率根据π∗(s)选择高价值动作,以ε的概率随机选择搜索动作空间,其数学表达式如下:
[
\pi_{\epsilon}(s) =
\begin{cases}
\pi^*(s), & \text{概率 } 1 - \epsilon \
\text{随机选择 } a \in A, & \text{概率 } \epsilon
\end{cases}
]
最终得到的DQN算法伪代码相关信息中,M是最大训练步数,下标j表示小批量样本集中状态转移样本的序号,$s_i$是移动机器人的环境状态,$a_i$是状态空间中的可执行动作,D是经验回放池。
2. 结合人工势场的改进DQN算法设计
2.1 网络结构设计
DQN方法通常会高估行为价值函数的Q值,存在过度优化问题。为解决此问题,一般使用两个网络:Q网络和目标Q网络,分别用于行为选择和行为评估。两个网络结构模型相同,但目标Q网络的参数更新速度比在线Q网络慢,默认每300步更新一次,可根据实际训练需求调整。
为降低模型复杂度,满足任务要求,采用Keras分层结构构建网络,并在全连接层后添加随机失活(Dropout)以避免过拟合。
超级会员免费看
订阅专栏 解锁全文
2007

被折叠的 条评论
为什么被折叠?



