19、基于强化学习的行星齿轮箱智能故障诊断方法

最新推荐文章于 2025-09-06 11:10:41 发布

雪落无声360

最新推荐文章于 2025-09-06 11:10:41 发布

阅读量59

点赞数

CC 4.0 BY-SA版权

分类专栏：深度神经网络与智能诊断文章标签：行星齿轮箱故障诊断强化学习

本文链接：https://blog.youkuaiyun.com/agile9scrum/article/details/151251149

深度神经网络与智能诊断专栏收录该内容

20 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于强化学习的行星齿轮箱智能故障诊断方法

1. 基于DQN的故障识别

在故障诊断的研究中，基于深度Q网络（DQN）的方法展现出了独特的优势。首先，各种经验样本 $e_t = (s_t, a_t, r_t, s_{t+1}, terminal_t)$ 会被存储在经验回放（ER）缓冲区B中。参数 $\epsilon$ 的变化遵循以下规则：
[
\epsilon =
\begin{cases}
\epsilon \times \epsilon_{decay}, & \text{if } \epsilon \geq \epsilon_{min} \
\epsilon_{min}, & \text{otherwise}
\end{cases}
]
其中，$\epsilon_{min}$ 表示 $\epsilon$ 的最小值，$\epsilon_{decay}$ 是衰减因子。在本方法中，初始的 $\epsilon$ 设为1，$\epsilon_{min}$ 为0.2，$\epsilon_{decay}$ 为0.998。

在模型训练阶段，依据约束马尔可夫决策过程（CMDP），当智能体与环境交互时，会随机获取一组T个样本，按照样本顺序形成一个顺序决策的情节。智能体自主学习过程中，会从ER缓冲区随机采样小批量经验数据 ${e_1, e_2, …, e_{mini - batch}}$ 来更新自身参数。具体而言，评估网络（Eval - Net）会根据当前Q值和目标Q值的均方误差（MSE），通过梯度下降法进行更新；每经过C步（这里C设为4），目标网络（Target - Net）会通过复制Eval - Net的参数来更新。 </