分布式优化与博弈论学习中的随机方法:潜在博弈学习算法解析
1. 引言
在多智能体系统中,如何让智能体们达成一致行动以实现某个全局目标是一个重要问题。潜在博弈是一种有效的建模工具,可将优化问题转化为学习潜在函数局部最大值的问题。本文将介绍两种在潜在博弈中学习局部最大值的算法:基于通信的无记忆学习算法和基于收益的学习算法,并分析它们的收敛性。
2. 基于通信的无记忆学习算法
2.1 CDMA 无线系统问题建模
考虑一个由三个用户组成的码分多址(CDMA)无线系统的调节问题。用户的目标是最大化全局目标函数:
[
\phi(a) = \log\left(1 + \sum_{i\in[3]} h_i \exp(a_i)\right) - \sum_{i\in[3]} c_i(a_i)
]
其中,(a_i) 是第 (i) 个用户的发射功率强度,(p_i = \exp(a_i)) 是相应的发射功率,(h_1 = 1),(h_2 = 0.5),(h_3 = 1.1) 分别是用户到基站的信道增益。第 (i) 个用户在接收器处的信干比为:
[
\text{SINR} i(a) = \frac{h_i \exp(a_i)}{1 + \sum {j\neq i} h_j \exp(a_j)}
]
第 (i) 个用户的发射功率成本函数为:
[
c_i(a_i) = 3\log(1 + \exp(a_i)) - a_i
]
用户的效用函数为:
[
U_i(a) = \log(1 + \text{SINR} i(
超级会员免费看
订阅专栏 解锁全文
1057

被折叠的 条评论
为什么被折叠?



