基于A2C - RL的燃气轮机控制及UCR档案信号时间序列分类测试
一、基于A2C - RL的燃气轮机控制
1.1 A2C - RL控制设计
A2C - RL算法适用于跟踪燃气轮机期望轴速的实验设置。相关符号及参数含义如下表所示:
| 符号 | 含义 | 燃气轮机参数 |
| ---- | ---- | ---- |
| (s \in S) | 状态 | 轴速(rpm) |
| (s^ \in S) | 期望状态 | 期望轴速(rpm) |
| (a \in A) | 动作 | 燃油流量率(L/hr) |
| (r \in R) | 奖励 | (R = \begin{cases}10, & \text{if } (s - s^ ) \in \pm2\% \text{ of } s^ \ -1, & \text{if } (s - s^ ) \notin \pm2\% \text{ of } s^* \ -100, & \text{otherwise}\end{cases}) |
| (\gamma) | 折扣因子 | 0.95 |
| (\pi(s)) | 确定性策略 | - |
| (V^{\pi}(s)) | 遵循策略(\pi)时状态(s)的值 | - |
A2C - RL控制设计包含两个网络:
- Critic网络 :基于TD误差更新值函数参数(V^{\pi}(s))。
- Actor网络 :按照Critic建议的方向更
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



