26、LCRL与LN：强化学习与排队网络分析的新进展

饼干CSS

于 2025-07-07 16:43:21 发布

阅读量62

点赞数

CC 4.0 BY-SA版权

分类专栏： QEST 2022：系统定量评估的前沿进展文章标签： LCRL LN 强化学习

本文链接：https://blog.youkuaiyun.com/j2k3l4/article/details/149590733

QEST 2022：系统定量评估的前沿进展专栏收录该内容

43 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

LCRL与LN：强化学习与排队网络分析的新进展

1. LCRL的性能评估与拓展计划

LCRL是一个用于在LTL和omega - 正则规范下进行策略合成的新软件工具。研究人员对LCRL在关键强化学习超参数调整方面的鲁棒性进行了评估，具体是针对折扣因子η和学习率μ。评估方法是将LCRL代理训练10次，并对其最终策略进行100次测试。

以frozen - lake - 1实验为例，统计结果基于每个超参数配置下的10×100次测试，即1000次试验。实验数据如下表所示：
| η\μ | 0.2 | 0.4 | 0.6 | 0.8 | 0.99 |
| — | — | — | — | — | — |
| 0.2 | 92.5 ± 7.5% | 96.7 ± 3.2% | 91.3 ± 8.7% | 98.8 ± 1.1% | 94.7 ± 5.29% |
| 0.4 | 98.6 ± 1.4% | 89.5 ± 10.5% | 94.5 ± 5.5% | 94.5 ± 5.5% | 99.2 ± 0.74% |
| 0.6 | 99.0 ± 0.83% | 94.5 ± 5.5% | 93.3 ± 6.7% | 96.4 ± 3.59% | 93.3 ± 6.7% |
| 0.8 | 95.8 ± 4.2% | 99.5 ± 0.49% | 99.5 ± 0.49% | 96.9 ± 3.09% | 97.7 ± 2.2% |
| 0.99 | 88.9 ± 11.09% | 98.4 ± 1.55% | 97.1 ± 2.31% | 96.1 ± 3.73% | 95.2 ± 4.79% |
| 总体平均 | 95.676 ±