区块链赋能的智能物联网中的资源交易与多智能体强化学习
1. 资源交易的数学模型
在区块链赋能的工业物联网(IIoT)中,云服务提供商和矿工之间存在着资源交易的过程。为了评估矿工采取行动 $\mu_i$ 时的预期奖励,定义了效用函数 $R_i$:
$R_i = R × α(μ_i) −λ_i × μ_i$
其中,$R$ 表示成功挖矿过程的固定奖励,$λ_i$ 是云服务提供商提供的单位计算资源的价格。
云服务提供商和矿工的决策过程是一个顺序决策过程。云服务提供商首先预测矿工的总服务需求,并设定价格以获取更多利润。其优化问题可以表述为:
$\max_{\lambda} R_c(\lambda|\mu)$
s.t.
$\lambda \geq 0$
$\sum_{i\in N} \lambda_i\mu_i \geq \sum_{i\in N} c\mu_i$
矿工在观察到云服务提供商的价格策略后,设定自己的服务需求以获取更多利润。矿工的优化问题表示为:
$\max_{\mu_i} R_i(\mu_i|\lambda_i)$
s.t.
$\mu_i \geq 0$
$R × α(\mu_i) \geq \lambda_i × \mu_i$
2. 斯塔克尔伯格博弈分析
上述问题构成了一个斯塔克尔伯格博弈,博弈双方(资源提供商和矿工)都可以不断调整策略以最大化自己的奖励。斯塔克尔伯格博弈的目标是找到纳什均衡,即博弈的最优结果,在该结果下,没有玩家在考虑对手的选择后有动机偏离自己的策略。
纳什均衡点 $(\mu^ , \l
超级会员免费看
订阅专栏 解锁全文
38

被折叠的 条评论
为什么被折叠?



