分布式优化与博弈论学习中的随机方法:通信与收益学习策略
1. 引言
在多智能体系统中,如何让智能体通过学习找到潜在函数的局部最大值是一个重要问题。本文将介绍两种学习方法:基于通信的无记忆学习和基于收益的学习,并通过具体案例和理论分析展示它们如何收敛到潜在函数的局部最大值。
2. 基于通信的无记忆学习
2.1 CDMA 无线系统问题建模
考虑一个由三个用户组成的码分多址(CDMA)无线系统的调节问题。该问题可建模为一个潜在博弈,用户需要最大化以下全局目标函数:
[
\Phi(a) = \log\left(1 + \sum_{i\in[3]} h_i \exp(a_i)\right) - \sum_{i\in[3]} c_i(a_i)
]
其中,(a_i) 是第 (i) 个用户的发射功率强度,(p_i = \exp(a_i)) 是相应的发射功率,(h_1 = 1),(h_2 = 0.5),(h_3 = 1.1) 分别是用户到基站的信道增益。第 (i) 个用户在接收器处的信干比为:
[
\text{SINR} i(a) = \frac{h_i \exp(a_i)}{1 + \sum {j\neq i} h_j \exp(a_j)}
]
假设第 (i) 个用户的发射功率成本函数为:
[
c_i(a_i) = 3 \log(1 + \exp(a_i)) - a_i
]
用户的效用函数为:
[
U_i(a) = \log(1 + \text{SINR} i(a)) - c_i(a_i)
超级会员免费看
订阅专栏 解锁全文
33

被折叠的 条评论
为什么被折叠?



