社交边缘计算:奖励调优、案例研究与异质性应对
1. 奖励的动态调优
奖励的动态调优通过采用指数权重算法作为反馈控制机制来实现。服务器假设存在两个“专家”,他们会对奖励函数中“DRR”和“ACC”这两个因素的重要性进行投票,每个专家的投票都与相应的权重(α1 或 α2)相关联。
基于专家的投票,服务器根据公式 (3.9) 计算奖励。任务执行完成后,服务器可以观察到哪些任务错过了截止日期,并将性能反馈重新分配给每个专家,作为损失函数,然后相应地调整他们的权重。具体来说,权重(α1 和 α2)的更新公式如下:
[α_{new}^k = α_{old}^k * e^{−ηλ_k}, 1 ≤ k ≤ 2.]
其中,η 是学习参数,λk 是 αk 的损失函数,具体为:
[λ_1 = \frac{\sum_{z=1}^{Z} o_t^z * δ_z}{\sum_{z=1}^{Z} δ_z} - \frac{\sum_{z=1}^{Z} o_t^z * (1 - δ_z)}{\sum_{z=1}^{Z}(1 - δ_z)}, \sum_{z=1}^{Z} δ_z \neq 0 or Z]
[λ_2 = \frac{\sum_{z=1}^{Z} o_c^z * δ_z}{\sum_{z=1}^{Z} δ_z} - \frac{\sum_{z=1}^{Z} o_c^z * (1 - δ_z)}{\sum_{z=1}^{Z}(1 - δ_z)}, \sum_{z=1}^{Z} δ_z \neq 0 or Z]
这里,δz 表示任务 Jz 是否错过了截止日期。在上述公式中,我们使用满足截止日期的任务的平均传输开销(从边缘到服务器)作为设定点,并将其与错过截止日期的任务的平均
超级会员免费看
订阅专栏 解锁全文
979

被折叠的 条评论
为什么被折叠?



