网络决策与移动性支持技术解析
1. 网络决策方法
在网络决策中,最优决策(即最大化预期效用的决策)不仅取决于网络状态(如正常或拥塞),还与概率值 p 有关。通过基于分数的示例,以丢包率来定义马尔可夫决策过程(MDP)中的网络状态,能看出两种方法的差异。
1.1 基于分数的方法
在基于分数的方法中,可以定义一个阈值来做出决策。若 U(HQ) > U(LQ),则选择 HQ;否则选择 LQ。为避免频繁切换干扰用户,可应用滞后策略。通过效用函数确定的阈值约为 0.1,丢包率低于 0.1 时选 HQ,高于 0.1 时选 LQ。
1.2 MDP 方法
MDP 方法增加了处于某种状态的概率维度,能捕捉这一特征并用于决策,而基于分数的方法则无法做到。
1.3 决策策略的使用方式
使用找到的决策策略有离线和在线两种方式:
- 离线方式 :预先求解 MDP,策略是确定性的。假设网络按模型运行,正常和拥塞状态之间的转换由所选策略的 p 控制。可结合当前状态 s 估计 p,通过查找 (p, s) 组合先确定策略,再确定行动。
- 在线方式 :按给定时间间隔重新计算或求解 MDP,结合观察到的上下文知识。
1.4 模型实现的考虑因素
实现基于模型的方法时,MDP 假设系统状态已知,观测过程的不确定性会使过程复杂化。可通过扩展模型包含真实和观测状态(但需对解进行约束,因为真实状态仍未知),或使用部分可观测 MDP(POMDP)将不确定性直接集成到模型中,以状态的概率分布表示
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



