一、问题建模与系统架构
设系统状态空间为S = {s₁, s₂, …, sₙ},其中每个状态sᵢ表示用户在特定时刻的计算环境状态。定义观测空间O = {o₁, o₂, …, oₘ},包含可测量的用户行为指标。
系统采用马尔可夫决策过程(MDP)五元组表示:
M = (S, A, P, R, γ)
其中:
- A为动作空间(立即更新/延迟更新)
- P: S×A×S → [0,1]为状态转移概率
- R: S×A → ℝ为即时奖励函数
- γ∈[0,1]为折扣因子
二、核心概率模型
1. 用户行为隐马尔可夫模型
定义状态转移概率矩阵:
T = [tᵢⱼ]ₙₓₙ,其中tᵢⱼ = P(sₜ₊₁=j | sₜ=i)
观测概率矩阵:
E = [eⱼ(k)]ₙₓₘ,其中eⱼ(k) = P(oₜ=k | sₜ=j)
通过前向-后向算法计算状态序列概率:
αₜ(j) = P(o₁…ₜ, sₜ=j | λ) = [∑αₜ₋₁(i)tᵢⱼ]eⱼ(oₜ)
2. 空闲时间预测模型
定义空闲事件为泊松过程,强度函数为:
λ(t) = λ₀ + ∑αᵢκ(t - tᵢ)
其中:
- λ₀为基线强度
- κ(·)为衰减核函数
- αᵢ为历史事件影响系数
预测函数为:
f(t) = P(idle|Hₜ) = 1 - exp(-∫ₜᵗ⁺Δ λ(s)ds)
三、优化目标函数
定义双目标优化问题:
min[L₁(f), L₂(f)]
其中:
L₁(f) = ∑wₜ|f(t) - yₜ|² # 预测误差
L₂(f) = ∫g(t)dt # 更新延迟代价<

最低0.47元/天 解锁文章
788

被折叠的 条评论
为什么被折叠?



