自主系统与连续空间MDPs的最优合成
1. 自主系统的信任与风险
在当今科技飞速发展的时代,自主系统逐渐走入人们的视野,其安全性和可靠性成为了备受关注的话题。一方面,社会意识和政治责任感的提升,要求我们在使用计算机参与关键决策过程时,遵循一定的原则。
我们可以借鉴欧盟法律法规中潜在的预防原则,即当计算机参与关键决策时,要确保其判断的安全性和公正性。这一原则应体现在相关的法律法规中,以规范自主系统的开发和部署。
我们正处于一场伟大的知识革命的边缘,对于机器产生的知识,我们需要保持警惕。真正的威胁并非计算机智能超越人类智能并掌控人类社会,而是在关键决策过程中,大量可问责的人类操作员被取代。我们不应在经济利益的压力下,基于对性能收益的片面理解,在没有严格可靠保证的情况下,将决策权交给自主系统。
2. 连续空间MDPs的控制器合成问题
在网络物理系统中,如定价定时马尔可夫决策过程(PTMDP),其状态空间包含连续和离散组件。对于这类系统的控制器合成问题,可以转化为在欧几里得状态空间上寻找马尔可夫决策过程(MDP)的最优策略。
以往,Uppaal Stratego已经证明可以学习到接近最优的策略,但对于丰富的PTMDP类,仍有很大的改进空间。在大多数机器学习应用中,人们通常从现实世界的数据中学习,但对于许多网络物理系统,很难从现实世界系统中获取足够的数据。因此,我们采用基于系统模型生成的数据进行控制器合成,即所谓的“计算机内合成”方法。
为了解决连续状态空间的问题,我们开发了两种不同的强化学习策略,通过在线分区细化技术来处理。具体步骤如下:
1. 选择合适的方法
超级会员免费看
订阅专栏 解锁全文
1080

被折叠的 条评论
为什么被折叠?



