1、不确定性决策与强化学习:理论、算法与应用

不确定性决策与强化学习:理论、算法与应用

1. 不确定性决策概述

不确定性决策问题可分为两部分:一是如何了解世界,这涉及对世界初始不确定性的建模以及从证据和初始信念中得出结论;二是在已知当前世界信息的情况下,如何考虑未来可能改变结论的事件和观察来做决策,通常需要制定涵盖可能未来情况的长期计划。

在不确定性下规划时,要考虑执行计划可能产生的未来知识。例如,尝试新事物的计划可能带来更多信息,但难以判断这些信息是否有益。这种在已知能产生良好结果的行动和尝试新事物之间的选择,就是探索 - 利用困境,它是学习和规划相互作用的根源。

2. 不确定性与概率

2.1 概率的不同含义

概率在哲学上至少有三种不同含义:
- 古典概率 :概率分布描述真正的随机事件。例如物理中的双缝实验,粒子通过两条狭缝之一,但无法预测它会通过哪条,不过可以通过量子理论准确计算各事件的概率。目前,只有这类量子实验被认为是真正随机的,其他如抛硬币或掷骰子等过程本质上是确定性的,只是由于难以预测结果而看似随机,这引出了主观概率的概念。
- 主观概率 :概率是我们不确定性的表达,不一定源于随机性。这里的可能结果集合Ω不仅可以描述实验结果,还可以是一组可能的世界或现实。我们可以将Ω中某个世界的概率解释为我们认为它对应现实的置信度。实际上存在一个真实世界ω∗∈Ω,但我们并不知道它。概率仅反映我们的知识缺乏,而非ω∗选择的内在随机性。

2.2 概率的应用

无论持哪种概率观点,决策时都要考虑不确定性。在顺序决策问题中,我们采取行动、获取新观察,然后

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值