19、基于强化学习的行星齿轮箱智能故障诊断方法

基于强化学习的行星齿轮箱智能故障诊断方法

1. 基于DQN的故障识别

在故障诊断的研究中,基于深度Q网络(DQN)的方法展现出了独特的优势。首先,各种经验样本 $e_t = (s_t, a_t, r_t, s_{t+1}, terminal_t)$ 会被存储在经验回放(ER)缓冲区B中。参数 $\epsilon$ 的变化遵循以下规则:
[
\epsilon =
\begin{cases}
\epsilon \times \epsilon_{decay}, & \text{if } \epsilon \geq \epsilon_{min} \
\epsilon_{min}, & \text{otherwise}
\end{cases}
]
其中,$\epsilon_{min}$ 表示 $\epsilon$ 的最小值,$\epsilon_{decay}$ 是衰减因子。在本方法中,初始的 $\epsilon$ 设为1,$\epsilon_{min}$ 为0.2,$\epsilon_{decay}$ 为0.998。

在模型训练阶段,依据约束马尔可夫决策过程(CMDP),当智能体与环境交互时,会随机获取一组T个样本,按照样本顺序形成一个顺序决策的情节。智能体自主学习过程中,会从ER缓冲区随机采样小批量经验数据 ${e_1, e_2, …, e_{mini - batch}}$ 来更新自身参数。具体而言,评估网络(Eval - Net)会根据当前Q值和目标Q值的均方误差(MSE),通过梯度下降法进行更新;每经过C步(这里C设为4),目标网络(Target - Net)会通过复制Eval - Net的参数来更新。 </

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值