6、社交边缘计算：奖励调优、案例研究与异质性应对

raspberrypi5

于 2025-09-10 15:52:16 发布

阅读量22

点赞数

CC 4.0 BY-SA版权

分类专栏：社交边缘计算：人机共生文章标签：社交边缘计算 CoGTA框架 HeteroEdge框架

本文链接：https://blog.youkuaiyun.com/raspberrypi5/article/details/151956274

社交边缘计算：人机共生专栏收录该内容

18 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

社交边缘计算：奖励调优、案例研究与异质性应对

1. 奖励的动态调优

奖励的动态调优通过采用指数权重算法作为反馈控制机制来实现。服务器假设存在两个“专家”，他们会对奖励函数中“DRR”和“ACC”这两个因素的重要性进行投票，每个专家的投票都与相应的权重（α1 或 α2）相关联。

基于专家的投票，服务器根据公式 (3.9) 计算奖励。任务执行完成后，服务器可以观察到哪些任务错过了截止日期，并将性能反馈重新分配给每个专家，作为损失函数，然后相应地调整他们的权重。具体来说，权重（α1 和 α2）的更新公式如下：
[α_{new}^k = α_{old}^k * e^{−ηλ_k}, 1 ≤ k ≤ 2.]
其中，η 是学习参数，λk 是 αk 的损失函数，具体为：
[λ_1 = \frac{\sum_{z=1}^{Z} o_t^z * δ_z}{\sum_{z=1}^{Z} δ_z} - \frac{\sum_{z=1}^{Z} o_t^z * (1 - δ_z)}{\sum_{z=1}^{Z}(1 - δ_z)}, \sum_{z=1}^{Z} δ_z \neq 0 or Z]
[λ_2 = \frac{\sum_{z=1}^{Z} o_c^z * δ_z}{\sum_{z=1}^{Z} δ_z} - \frac{\sum_{z=1}^{Z} o_c^z * (1 - δ_z)}{\sum_{z=1}^{Z}(1 - δ_z)}, \sum_{z=1}^{Z} δ_z \neq 0 or Z]
这里，δz 表示任务 Jz 是否错过了截止日期。在上述公式中，我们使用满足截止日期的任务的平均传输开销（从边缘到服务器）作为设定点，并将其与错过截止日期的任务的平均

会员秒杀 ¥9.9 重磅福利

超级会员免费看