10、网络决策与移动性支持技术解析

网络决策与移动性支持技术解析

1. 网络决策方法

在网络决策中,最优决策(即最大化预期效用的决策)不仅取决于网络状态(如正常或拥塞),还与概率值 p 有关。通过基于分数的示例,以丢包率来定义马尔可夫决策过程(MDP)中的网络状态,能看出两种方法的差异。

1.1 基于分数的方法

在基于分数的方法中,可以定义一个阈值来做出决策。若 U(HQ) > U(LQ),则选择 HQ;否则选择 LQ。为避免频繁切换干扰用户,可应用滞后策略。通过效用函数确定的阈值约为 0.1,丢包率低于 0.1 时选 HQ,高于 0.1 时选 LQ。

1.2 MDP 方法

MDP 方法增加了处于某种状态的概率维度,能捕捉这一特征并用于决策,而基于分数的方法则无法做到。

1.3 决策策略的使用方式

使用找到的决策策略有离线和在线两种方式:
- 离线方式 :预先求解 MDP,策略是确定性的。假设网络按模型运行,正常和拥塞状态之间的转换由所选策略的 p 控制。可结合当前状态 s 估计 p,通过查找 (p, s) 组合先确定策略,再确定行动。
- 在线方式 :按给定时间间隔重新计算或求解 MDP,结合观察到的上下文知识。

1.4 模型实现的考虑因素

实现基于模型的方法时,MDP 假设系统状态已知,观测过程的不确定性会使过程复杂化。可通过扩展模型包含真实和观测状态(但需对解进行约束,因为真实状态仍未知),或使用部分可观测 MDP(POMDP)将不确定性直接集成到模型中,以状态的概率分布表示

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值