LCRL与LN:强化学习与排队网络分析的新进展
1. LCRL的性能评估与拓展计划
LCRL是一个用于在LTL和omega - 正则规范下进行策略合成的新软件工具。研究人员对LCRL在关键强化学习超参数调整方面的鲁棒性进行了评估,具体是针对折扣因子η和学习率μ。评估方法是将LCRL代理训练10次,并对其最终策略进行100次测试。
以frozen - lake - 1实验为例,统计结果基于每个超参数配置下的10×100次测试,即1000次试验。实验数据如下表所示:
| η\μ | 0.2 | 0.4 | 0.6 | 0.8 | 0.99 |
| — | — | — | — | — | — |
| 0.2 | 92.5 ± 7.5% | 96.7 ± 3.2% | 91.3 ± 8.7% | 98.8 ± 1.1% | 94.7 ± 5.29% |
| 0.4 | 98.6 ± 1.4% | 89.5 ± 10.5% | 94.5 ± 5.5% | 94.5 ± 5.5% | 99.2 ± 0.74% |
| 0.6 | 99.0 ± 0.83% | 94.5 ± 5.5% | 93.3 ± 6.7% | 96.4 ± 3.59% | 93.3 ± 6.7% |
| 0.8 | 95.8 ± 4.2% | 99.5 ± 0.49% | 99.5 ± 0.49% | 96.9 ± 3.09% | 97.7 ± 2.2% |
| 0.99 | 88.9 ± 11.09% | 98.4 ± 1.55% | 97.1 ± 2.31% | 96.1 ± 3.73% | 95.2 ± 4.79% |
| 总体平均 | 95.676 ±
超级会员免费看
订阅专栏 解锁全文
1159

被折叠的 条评论
为什么被折叠?



