12、基于A2C - RL的燃气轮机控制及UCR档案信号时间序列分类测试

基于A2C - RL的燃气轮机控制及UCR档案信号时间序列分类测试

一、基于A2C - RL的燃气轮机控制

1.1 A2C - RL控制设计

A2C - RL算法适用于跟踪燃气轮机期望轴速的实验设置。相关符号及参数含义如下表所示:
| 符号 | 含义 | 燃气轮机参数 |
| ---- | ---- | ---- |
| (s \in S) | 状态 | 轴速(rpm) |
| (s^ \in S) | 期望状态 | 期望轴速(rpm) |
| (a \in A) | 动作 | 燃油流量率(L/hr) |
| (r \in R) | 奖励 | (R = \begin{cases}10, & \text{if } (s - s^
) \in \pm2\% \text{ of } s^ \ -1, & \text{if } (s - s^ ) \notin \pm2\% \text{ of } s^* \ -100, & \text{otherwise}\end{cases}) |
| (\gamma) | 折扣因子 | 0.95 |
| (\pi(s)) | 确定性策略 | - |
| (V^{\pi}(s)) | 遵循策略(\pi)时状态(s)的值 | - |

A2C - RL控制设计包含两个网络:
- Critic网络 :基于TD误差更新值函数参数(V^{\pi}(s))。
- Actor网络 :按照Critic建议的方向更

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值