23、负延迟的形式化解释与机器学习应用

负延迟与机器学习应用解析

负延迟的形式化解释与机器学习应用

1. 负延迟的形式化定义

在目标马尔可夫决策过程(MDP)中,负延迟可以通过 νcϑ - 状态 k - 预测的成本界限来确定。设 (M, G) = (S, Act, P, C, ı, G) 是一个带目标的 MDP,其中成本函数 C 为状态 - 动作对分配(非零)执行时间。

1.1 负延迟的定义

对于 k ∈ N,递减的成本预测质量 ν,以及 ϑ ∈ [0, 1],带目标的 MDP (M, G) 具有 νϑ - 状态 k - 负延迟 ℓ,定义为:
ℓ = max{c ∈ N | 存在 νcϑ - 状态 k - 预测}

当一个带目标的 MDP 具有 k - 负延迟 ℓ 时,至少提前 ℓ 时间就有一个预测,能以高置信度保证达到预测的目标。实际中最相关的情况是 k = 1,即能提前预测单个结果的时间。

1.2 负延迟的计算与逆合成问题

可以通过算法 2 计算给定 MDP 和预测实现中的可能负延迟。逆合成问题也很有意义,即给定目标负延迟 ℓ,计算最小的 k,使得存在 νℓϑ - 状态 k - 预测。这可以通过一个类似于算法 2 但对 k 进行二分查找的简单算法来实现。

2. 用于负延迟的机器学习

系统底层 MDP 模型中的非确定性通常被解释为环境影响,如人类输入或系统的未知行为。为了考虑所有可能的环境和未知影响,同时仍对预测提供严格的质量保证,我们在规范质量度量 ν≤c 和 ν≥c 中对所有可能的策略进行量化,涵盖所有最坏情况。然而,这种观点过于保守,因为人类用户和底层系统并不会专门设计策略来对抗可能的预测。

2.

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值