基于强化学习的行星齿轮箱智能故障诊断方法
1. 基于DQN的故障识别
在故障诊断的研究中,基于深度Q网络(DQN)的方法展现出了独特的优势。首先,各种经验样本 $e_t = (s_t, a_t, r_t, s_{t+1}, terminal_t)$ 会被存储在经验回放(ER)缓冲区B中。参数 $\epsilon$ 的变化遵循以下规则:
[
\epsilon =
\begin{cases}
\epsilon \times \epsilon_{decay}, & \text{if } \epsilon \geq \epsilon_{min} \
\epsilon_{min}, & \text{otherwise}
\end{cases}
]
其中,$\epsilon_{min}$ 表示 $\epsilon$ 的最小值,$\epsilon_{decay}$ 是衰减因子。在本方法中,初始的 $\epsilon$ 设为1,$\epsilon_{min}$ 为0.2,$\epsilon_{decay}$ 为0.998。
在模型训练阶段,依据约束马尔可夫决策过程(CMDP),当智能体与环境交互时,会随机获取一组T个样本,按照样本顺序形成一个顺序决策的情节。智能体自主学习过程中,会从ER缓冲区随机采样小批量经验数据 ${e_1, e_2, …, e_{mini - batch}}$ 来更新自身参数。具体而言,评估网络(Eval - Net)会根据当前Q值和目标Q值的均方误差(MSE),通过梯度下降法进行更新;每经过C步(这里C设为4),目标网络(Target - Net)会通过复制Eval - Net的参数来更新。 </
超级会员免费看
订阅专栏 解锁全文
345

被折叠的 条评论
为什么被折叠?



