6、混合系统屏蔽强化学习与学习使能安全关键系统的可证明保证

最新推荐文章于 2025-09-12 13:45:37 发布

mmm90

最新推荐文章于 2025-09-12 13:45:37 发布

阅读量23

点赞数

CC 4.0 BY-SA版权

分类专栏： AI与现实的鸿沟文章标签：混合系统强化学习安全关键系统

本文链接：https://blog.youkuaiyun.com/mmm90/article/details/152645260

AI与现实的鸿沟专栏收录该内容

48 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

混合系统屏蔽强化学习与学习使能安全关键系统的可证明保证

混合系统屏蔽强化学习

在混合系统的屏蔽强化学习中，我们通过有限（2 玩家）混合马尔可夫决策过程的抽象来合成接近最优的安全策略。具体采用基于模拟的技术来推断 2 玩家抽象，进而构建安全屏蔽。

以下是优化后策略与均匀选择策略的对比表格：
| 配置 | 成本 | 干预次数 |
| — | — | — |
| 均匀随机选择基线 | 11371 | 13.50 |
| 最小化干预 | 11791（+3.7%） | 11.43（-15.3%） |
| 最小化成本 | 10768（-5.3%） | 17.43（+29.1%） |
| 代理偏好 | 11493（-1.1%） | 14.55（+7.8%） |
| 预屏蔽代理 | 6912（-39.2%） | - |

从表格中可以看出，不同配置下成本和干预次数有不同的变化。例如，最小化干预配置下，干预次数有所减少，但成本有所增加；而最小化成本配置下，成本降低了，但干预次数增加了。

下面是该过程的 mermaid 流程图：

graph LR
    A[混合马尔可夫决策过程] --> B[模拟推断2玩家抽象]
    B --> C[构建安全屏蔽]
    C --> D[训练优化策略]
    D --> E[与均匀选择策略对比]

学习使能安全关键系统的挑战

随着科技发展，自主系统逐渐增多，但在安全关键应用（如交通、医疗）中部署面临诸多挑

会员秒杀 ¥9.9 重磅福利

超级会员免费看