26、LCRL与LN:强化学习与排队网络分析的新进展

LCRL与LN:强化学习与排队网络分析的新进展

1. LCRL的性能评估与拓展计划

LCRL是一个用于在LTL和omega - 正则规范下进行策略合成的新软件工具。研究人员对LCRL在关键强化学习超参数调整方面的鲁棒性进行了评估,具体是针对折扣因子η和学习率μ。评估方法是将LCRL代理训练10次,并对其最终策略进行100次测试。

以frozen - lake - 1实验为例,统计结果基于每个超参数配置下的10×100次测试,即1000次试验。实验数据如下表所示:
| η\μ | 0.2 | 0.4 | 0.6 | 0.8 | 0.99 |
| — | — | — | — | — | — |
| 0.2 | 92.5 ± 7.5% | 96.7 ± 3.2% | 91.3 ± 8.7% | 98.8 ± 1.1% | 94.7 ± 5.29% |
| 0.4 | 98.6 ± 1.4% | 89.5 ± 10.5% | 94.5 ± 5.5% | 94.5 ± 5.5% | 99.2 ± 0.74% |
| 0.6 | 99.0 ± 0.83% | 94.5 ± 5.5% | 93.3 ± 6.7% | 96.4 ± 3.59% | 93.3 ± 6.7% |
| 0.8 | 95.8 ± 4.2% | 99.5 ± 0.49% | 99.5 ± 0.49% | 96.9 ± 3.09% | 97.7 ± 2.2% |
| 0.99 | 88.9 ± 11.09% | 98.4 ± 1.55% | 97.1 ± 2.31% | 96.1 ± 3.73% | 95.2 ± 4.79% |
| 总体平均 | 95.676 ±

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值