负延迟的形式化解释与机器学习应用
1. 负延迟的形式化定义
在目标马尔可夫决策过程(MDP)中,负延迟可以通过 νcϑ - 状态 k - 预测的成本界限来确定。设 (M, G) = (S, Act, P, C, ı, G) 是一个带目标的 MDP,其中成本函数 C 为状态 - 动作对分配(非零)执行时间。
1.1 负延迟的定义
对于 k ∈ N,递减的成本预测质量 ν,以及 ϑ ∈ [0, 1],带目标的 MDP (M, G) 具有 νϑ - 状态 k - 负延迟 ℓ,定义为:
ℓ = max{c ∈ N | 存在 νcϑ - 状态 k - 预测}
当一个带目标的 MDP 具有 k - 负延迟 ℓ 时,至少提前 ℓ 时间就有一个预测,能以高置信度保证达到预测的目标。实际中最相关的情况是 k = 1,即能提前预测单个结果的时间。
1.2 负延迟的计算与逆合成问题
可以通过算法 2 计算给定 MDP 和预测实现中的可能负延迟。逆合成问题也很有意义,即给定目标负延迟 ℓ,计算最小的 k,使得存在 νℓϑ - 状态 k - 预测。这可以通过一个类似于算法 2 但对 k 进行二分查找的简单算法来实现。
2. 用于负延迟的机器学习
系统底层 MDP 模型中的非确定性通常被解释为环境影响,如人类输入或系统的未知行为。为了考虑所有可能的环境和未知影响,同时仍对预测提供严格的质量保证,我们在规范质量度量 ν≤c 和 ν≥c 中对所有可能的策略进行量化,涵盖所有最坏情况。然而,这种观点过于保守,因为人类用户和底层系统并不会专门设计策略来对抗可能的预测。
负延迟与机器学习应用解析
超级会员免费看
订阅专栏 解锁全文
6914

被折叠的 条评论
为什么被折叠?



