文章地址:Link
摘要:
信道衰落对无线联合边缘学习(OTA-FEEL)的收敛性有很大影响。本文提出了一种新的最优功率控制策略,使OTA-FEEL在任意独立同分布衰落下的最优间隙最小。具体而言,我们揭示了最优功率控制策略采用的结构是,当其平均值给定时,从设备到服务器的有效信道的方差应最小化。在此基础上,提出了一种新的嵌套优化算法,利用拉格朗日对偶方法迭代最小化方差,然后利用一维搜索优化有效信道均值。导出了最优功率控制策略的准封闭表达式。结果表明,OTA-FEEL的最优自适应功率控制是“信道反转”策略和相反的“信道比例”策略的集成,以平衡等效信道的均值与方差。当信道统计量先验未知时,我们也推广了新策略,并证明了最优策略可以随时间渐近逼近。仿真结果证实了该策略在OTA-FEEL的收敛速度和学习精度方面优于现有策略。
Contributions:
1.考虑了一种新的功率控制问题,使OTA-FEEL算法在一般i.i.d衰落信道下的最优性间隙最小化,提高其收敛性。
2.揭示了对于具有(强)凸损失函数OTA-FEEL框架,设备的最优功率控制策略是:在每轮全局聚合时,在等效信道的均值给定时,最小化等效信道的方差。
3.提出了一种新的基于嵌套优化(nested optimization)的算法,以获得每个设备的最优功率控制策略,并推导出了准闭式表达式。算法只需要设备的信道均值和方差,使用拉格朗日对偶方法迭代最小化其有效信道方差,并以完全分布式的方式使用一维搜索优化其有效信道均值。
4.在等效信道均值和方差先验未知的情况下,进一步扩展了最优功率控制策略。应用随机锁定定理,证明了该扩展可以随时间渐近逼近最优策略。
System Model:
设置系统内共有
N
N
N个用户,并考虑全用户参与:
F
(
w
)
=
1
N
∑
n
=
1
N
F
n
(
w
)
=
1
N
∑
n
=
1
N
(
1
D
∑
i
=
1
D
f
(
w
,
x
n
,
i
,
y
n
,
i
)
)
,
F(\mathbf{w})=\frac{1}{N} \sum_{n=1}^N F_n(\mathbf{w})=\frac{1}{N} \sum_{n=1}^N\left(\frac{1}{D} \sum_{i=1}^D f\left(\mathbf{w}, \mathbf{x}_{n, i}, y_{n, i}\right)\right),
F(w)=N1n=1∑NFn(w)=N1n=1∑N(D1i=1∑Df(w,xn,i,yn,i)),
借助MAC多址信道叠加特性,设备使用共享频谱资源块上传模型更新;
假设:每个设备都经历一个复数域块衰落信道,其在一个通信轮内是准静态的,在不同的通信轮间中是i.i.d的。这些信道在设备间也是i.i.d的,设备有其与BS间的完美CSI
通过对相位
e
j
ϕ
n
,
t
e^{j\phi_{n,t}}
ejϕn,t进行预消除,在通信轮
t
t
t,BS聚合得到
y
t
=
∑
n
=
1
N
h
n
,
t
ρ
n
,
t
⏟
e
f
f
e
c
t
i
v
e
c
h
a
n
n
e
l
g
n
,
t
+
z
t
,
{{\boldsymbol{y}}_t} = \sum\limits_{n = 1}^N {\underbrace {{h_{n,t}}{\rho _{n,t}}}_{{\rm{effective \ channel}}}} {{\bf{g}}_{n,t}} + {{\bf{z}}_t},
yt=n=1∑Neffective channel
hn,tρn,tgn,t+zt,
其中,
ρ
n
,
t
\rho_{n,t}
ρn,t为sacling factor,
h
n
,
t
h_{n,t}
hn,t为fading state,将
ρ
n
,
t
h
n
,
t
\rho_{n,t}h_{n,t}
ρn,thn,t进一步定义为effective channel,即设备
n
n
n的等效信道
BS随后利用LS方法得到
g
^
t
=
y
t
N
=
1
N
∑
n
=
1
N
h
n
,
t
ρ
n
,
t
g
n
,
t
+
z
^
t
,
\hat{\mathbf{g}}_t=\frac{\mathbf{y}_t}{N}=\frac{1}{N} \sum_{n=1}^N h_{n, t} \rho_{n, t} \mathbf{g}_{n, t}+\hat{\mathbf{z}}_t,
g^t=Nyt=N1n=1∑Nhn,tρn,tgn,t+z^t,
随后对全局模型进行更新
w
t
+
1
=
w
t
−
β
g
^
t
=
w
t
−
β
(
1
N
∑
n
=
1
N
h
n
,
t
ρ
n
,
t
g
n
,
t
+
z
^
t
)
.
\mathbf{w}_{t+1}=\mathbf{w}_t-\beta \hat{\mathbf{g}}_t=\mathbf{w}_t-\beta\left(\frac{1}{N} \sum_{n=1}^N h_{n, t} \rho_{n, t} \mathbf{g}_{n, t}+\hat{\mathbf{z}}_t\right) .
wt+1=wt−βg^t=wt−β(N1n=1∑Nhn,tρn,tgn,t+z^t).
其中
z
t
∼
N
(
0
,
σ
z
2
I
)
z
^
t
∼
N
(
0
,
σ
z
2
N
2
I
)
.
\mathbf{z}_t \sim \mathcal{N}\left(0, \sigma_z^2 \mathbf{I}\right) \hat{\mathbf{z}}_t \sim \mathcal{N}\left(0, \frac{\sigma_z^2}{N^2} \mathbf{I}\right) \text {. }
zt∼N(0,σz2I)z^t∼N(0,N2σz2I).
Convergence Analysis:
Let
μ
h
\mu_h
μh and
σ
h
2
\sigma_h^2
σh2 denote the (same) mean and variance of the i.i.d. fading state
h
n
,
t
h_{n, t}
hn,t at all devices in any aggregation round. Without scaling (i.e.,
ρ
n
,
t
=
1
,
∀
n
,
t
\rho_{n, t}=1, \forall n, t
ρn,t=1,∀n,t ), the upper bound of the optimality gap for OTA-FEEL with a strongly convex loss function is given as follows.
由convergence result可知,通过较大的信道均值和较小的方差,可以缩小(7)和(8)中的optimality gap。
本文目标即设计一种自适应功率控制策略,以构建具有较大均值和较小方差的良好有效信道,从而最小化(7)和(8)的optimality gap,进而加速OTA-FEEL的收敛。
Problem Formulation:
定义effective channel gain:
h
E
:
=
h
ρ
(
h
)
h^E:=h \rho(h)
hE:=hρ(h),其相应的均值与方差为:
μ
h
E
=
E
h
[
h
ρ
(
h
)
]
σ
h
E
2
=
E
h
[
(
h
ρ
(
h
)
−
μ
h
E
)
2
]
.
\begin{aligned} \mu_{h^E} & =\mathbb{E}_h[h \rho(h)] \\ \sigma_{h^E}^2 & =\mathbb{E}_h\left[\left(h \rho(h)-\mu_{h^E}\right)^2\right] . \end{aligned}
μhEσhE2=Eh[hρ(h)]=Eh[(hρ(h)−μhE)2].
在上述定义的基础上,通过将(7)和(8)中的
μ
h
\mu_h
μh与
σ
h
2
\sigma_h^2
σh2替换为等效信道的
μ
h
E
\mu_{h^E}
μhE与
σ
h
E
2
\sigma_{h^E}^2
σhE2(因为Lemma 1&2可以看作
ρ
(
h
)
=
1
\rho(h)=1
ρ(h)=1的退化情况),给出相应的generalized的optimality gap。
假定在不丧失一般性的情况下,在设备上使用单位能量调制来传输符号,则每个设备上的功率限制为:
E
h
[
ρ
2
(
h
)
]
≤
P
0
\mathbb{E}_h\left[\rho^2(h)\right] \leq P_0
Eh[ρ2(h)]≤P0
为了最小化optimality gap,优化问题可建模为:
P1 :
min
{
ρ
(
h
)
≥
0
,
∀
h
}
G
(
μ
h
E
,
σ
h
E
2
)
s.t.
E
h
[
ρ
2
(
h
)
]
≤
P
0
\text { P1 : } \min _{\{\rho(h) \geq 0, \forall h\}} G\left(\mu_{h^E}, \sigma_{h^E}^2\right) \quad \text { s.t. }\mathbb{E}_h\left[\rho^2(h)\right] \leq P_0
P1 : {ρ(h)≥0,∀h}minG(μhE,σhE2) s.t. Eh[ρ2(h)]≤P0
P1显然是非凸的,同时在等效均值给定时,
G
(
)
G()
G()随等效方差单增,即最优功率控制lies in: 一个
μ
h
E
\mu_{h^E}
μhE,都应最小化
σ
h
E
2
\sigma_{h^E}^2
σhE2。
Problem Transformation:
将
μ
h
E
\mu_{h^E}
μhE视为外层变量,
σ
h
E
2
\sigma_{h^E}^2
σhE2视为内层变量,进而推导出一个嵌套问题结构:
min
μ
h
E
G
(
μ
h
E
,
σ
h
E
2
(
μ
h
E
)
)
,
\min _{\mu_h E} G\left(\mu_{h^E}, \sigma_{h^E}^2\left(\mu_{h^E}\right)\right),
μhEminG(μhE,σhE2(μhE)),
where
P
2
:
σ
h
E
2
(
μ
h
E
)
=
min
{
ρ
(
h
)
≥
0
,
∀
h
}
E
h
[
(
h
ρ
(
h
)
−
μ
h
E
)
2
]
,
\mathbf{P} 2: \sigma_{h^E}^2\left(\mu_{h^E}\right)=\min _{\{\rho(h) \geq 0, \forall h\}} \mathbb{E}_h\left[\left(h \rho(h)-\mu_{h^E}\right)^2\right],
P2:σhE2(μhE)={ρ(h)≥0,∀h}minEh[(hρ(h)−μhE)2],
s.t.
μ
h
E
=
E
h
[
h
ρ
(
h
)
]
,
E
h
[
ρ
2
(
h
)
]
≤
P
0
\mu_{h^E} =\mathbb{E}_h[h \rho(h)] , \mathbb{E}_h\left[\rho^2(h)\right] \leq P_0
μhE=Eh[hρ(h)],Eh[ρ2(h)]≤P0
求解最优功率控制
ρ
∗
(
h
)
\rho^*(h)
ρ∗(h)思路可概括为:
对于任意
μ
h
E
\mu_{h^E}
μhE,获得最优的
σ
h
E
2
\sigma_{h^E}^2
σhE2,再搜索使
G
(
)
G()
G()最小的
μ
h
E
\mu_{h^E}
μhE
以
ρ
(
h
)
\rho(h)
ρ(h)为优化变量,探索P2中的强对偶性:令
ρ
:
=
{
ρ
(
h
)
≥
0
,
∀
h
}
\boldsymbol{\rho}:=\{\rho(h) \geq 0, \forall h\}
ρ:={ρ(h)≥0,∀h},P2的增广拉格朗日函数为:
L
(
ρ
,
λ
,
ν
)
=
E
h
[
(
h
ρ
(
h
)
−
μ
h
E
)
2
]
+
λ
(
E
h
[
ρ
(
h
)
2
]
−
P
0
)
+
ν
(
E
h
[
h
ρ
(
h
)
]
−
μ
h
E
)
G
(
λ
,
ν
)
=
min
ρ
L
(
ρ
,
λ
,
ν
)
\begin{aligned} &\mathcal{L}(\boldsymbol{\rho}, \lambda, \nu)= \mathbb{E}_h\left[\left(h \rho(h)-\mu_{h^E}\right)^2\right]+\lambda\left(\mathbb{E}_h\left[\rho(h)^2\right]\right. \\ & \left.-P_0\right)+\nu\left(\mathbb{E}_h[h \rho(h)]-\mu_{h^E}\right) \\ &\mathcal{G}(\lambda, \nu)=\min _{\boldsymbol{\rho}} \mathcal{L}(\boldsymbol{\rho}, \lambda, \nu) \end{aligned}
L(ρ,λ,ν)=Eh[(hρ(h)−μhE)2]+λ(Eh[ρ(h)2]−P0)+ν(Eh[hρ(h)]−μhE)G(λ,ν)=ρminL(ρ,λ,ν)
相应的对偶问题为:
max
λ
≥
0
,
ν
G
(
λ
,
ν
)
\max _{\lambda \geq 0, \nu} \mathcal{G}(\lambda, \nu)
λ≥0,νmaxG(λ,ν)
进一步定义:
J
(
ρ
(
h
)
,
λ
,
ν
;
h
)
=
(
h
ρ
(
h
)
−
μ
h
E
)
2
+
λ
ρ
(
h
)
2
+
ν
h
ρ
(
h
)
L
(
ρ
,
λ
,
ν
)
=
E
h
[
J
(
ρ
(
h
)
,
λ
,
ν
;
h
)
]
−
λ
P
0
−
ν
μ
h
E
\mathcal{J}(\rho(h), \lambda, \nu ; h)=\left(h \rho(h)-\mu_{h^E}\right)^2+\lambda \rho(h)^2+\nu h \rho(h) \\ \mathcal{L}(\boldsymbol{\rho}, \lambda, \nu)=\mathbb{E}_h[\mathcal{J}(\rho(h), \lambda, \nu ; h)]-\lambda P_0-\nu \mu_{h^E}
J(ρ(h),λ,ν;h)=(hρ(h)−μhE)2+λρ(h)2+νhρ(h)L(ρ,λ,ν)=Eh[J(ρ(h),λ,ν;h)]−λP0−νμhE
上式表明,对于每个h,都需要最小化
J
(
)
\mathcal{J}()
J()以最小化
L
(
)
\mathcal{L}()
L()。
随后,文章推导出含有对偶变量的功率分配
ρ
\rho
ρ的闭式形式:
Proof:应用一阶条件,对
L
(
)
\mathcal{L}()
L()关于
ρ
(
h
)
\rho(h)
ρ(h)求导取0即可
随后对对偶函数
G
(
)
\mathcal{G}()
G()使用次梯度法,
γ
\gamma
γ为步长
λ
(
i
+
1
)
=
max
(
λ
(
i
)
+
γ
(
E
h
[
ρ
(
i
)
∗
(
h
)
2
]
−
P
0
)
,
0
)
ν
(
i
+
1
)
=
ν
(
i
)
+
γ
(
E
h
[
h
ρ
(
i
)
∗
(
h
)
]
−
μ
h
E
)
\begin{aligned} & \lambda_{(i+1)}=\max \left(\lambda_{(i)}+\gamma\left(\mathbb{E}_h\left[\rho_{(i)}^*(h)^2\right]-P_0\right), 0\right) \\ & \nu_{(i+1)}=\nu_{(i)}+\gamma\left(\mathbb{E}_h\left[h \rho_{(i)}^*(h)\right]-\mu_{h^E}\right) \end{aligned}
λ(i+1)=max(λ(i)+γ(Eh[ρ(i)∗(h)2]−P0),0)ν(i+1)=ν(i)+γ(Eh[hρ(i)∗(h)]−μhE)
文章进一步利用反证法证明,由于
ν
∗
\nu^*
ν∗对于
μ
h
E
>
0
\mu_{h^E}>0
μhE>0都是非负的,可得到
ρ
∗
(
h
)
\rho^*(h)
ρ∗(h)的简化形式,即
ρ
∗
(
h
)
=
h
(
2
μ
h
E
−
ν
∗
)
2
(
h
2
+
λ
∗
)
,
∀
h
.
\rho^*(h)=\frac{h\left(2 \mu_{h^E}-\nu^*\right)}{2\left(h^2+\lambda^*\right)}, \quad \forall h .
ρ∗(h)=2(h2+λ∗)h(2μhE−ν∗),∀h.
到此,再次回顾P2:
P
2
:
σ
h
E
2
(
μ
h
E
)
=
min
{
ρ
(
h
)
≥
0
,
∀
h
}
E
h
[
(
h
ρ
(
h
)
−
μ
h
E
)
2
]
,
\mathbf{P} 2: \sigma_{h^E}^2\left(\mu_{h^E}\right)=\min _{\{\rho(h) \geq 0, \forall h\}} \mathbb{E}_h\left[\left(h \rho(h)-\mu_{h^E}\right)^2\right],
P2:σhE2(μhE)={ρ(h)≥0,∀h}minEh[(hρ(h)−μhE)2],
根据前述求解得到的
ρ
∗
(
h
)
\rho^*(h)
ρ∗(h),在任意给定的
μ
h
E
\mu_{h^E}
μhE下,都可以给出P2的最优值,再根据一系列的
σ
h
E
2
(
μ
h
E
)
\sigma_{h^E}^2\left(\mu_{h^E}\right)
σhE2(μhE)去做一维搜索,即可得到最优的
μ
h
E
∗
\mu_{h^E}^*
μhE∗,其中
μ
h
E
\mu_{h^E}
μhE的搜索范围:
μ
h
E
=
E
h
[
h
ρ
(
h
)
]
=
∫
0
∞
h
ρ
(
h
)
p
(
h
)
d
h
=
∫
0
∞
h
p
(
h
)
ρ
(
h
)
p
(
h
)
d
h
.
\begin{aligned} \mu_{h^E} & =\mathbb{E}_h[h \rho(h)] \\ & =\int_0^{\infty} h \rho(h) p(h) d h \\ & =\int_0^{\infty} h \sqrt{p(h)} \rho(h) \sqrt{p(h)} d h . \end{aligned}
μhE=Eh[hρ(h)]=∫0∞hρ(h)p(h)dh=∫0∞hp(h)ρ(h)p(h)dh.
通过柯西施瓦茨不等式约束:
μ
h
E
=
(
∫
0
∞
h
p
(
h
)
ρ
(
h
)
p
(
h
)
d
h
)
2
≤
∫
0
∞
h
2
p
(
h
)
d
h
∫
0
∞
ρ
2
(
h
)
p
(
h
)
d
h
≤
E
[
h
2
]
P
0
,
\begin{aligned} \mu_{h^E} & =\sqrt{\left(\int_0^{\infty} h \sqrt{p(h)} \rho(h) \sqrt{p(h)} d h\right)^2} \\ & \leq \sqrt{\int_0^{\infty} h^2 p(h) d h} \sqrt{\int_0^{\infty} \rho^2(h) p(h) d h} \\ & \leq \sqrt{\mathbb{E}\left[h^2\right] P_0}, \end{aligned}
μhE=(∫0∞hp(h)ρ(h)p(h)dh)2≤∫0∞h2p(h)dh∫0∞ρ2(h)p(h)dh≤E[h2]P0,
完整的power control策略可总结为如下Theorem:
相应的算法为:
Online Solution (when the channel statisitics are unknown a-priori):
此时,设备需要在线学习信道的统计信息,相较于前述对偶变量更新:
λ
(
i
+
1
)
=
max
(
λ
(
i
)
+
γ
(
E
h
[
ρ
(
i
)
∗
(
h
)
2
]
−
P
0
)
,
0
)
ν
(
i
+
1
)
=
ν
(
i
)
+
γ
(
E
h
[
h
ρ
(
i
)
∗
(
h
)
]
−
μ
h
E
)
\begin{aligned} & \lambda_{(i+1)}=\max \left(\lambda_{(i)}+\gamma\left(\mathbb{E}_h\left[\rho_{(i)}^*(h)^2\right]-P_0\right), 0\right) \\ & \nu_{(i+1)}=\nu_{(i)}+\gamma\left(\mathbb{E}_h\left[h \rho_{(i)}^*(h)\right]-\mu_{h^E}\right) \end{aligned}
λ(i+1)=max(λ(i)+γ(Eh[ρ(i)∗(h)2]−P0),0)ν(i+1)=ν(i)+γ(Eh[hρ(i)∗(h)]−μhE)
在第
i
i
i通信轮的基础上,基于此时的
h
(
i
)
h_{(i)}
h(i),使用随机次梯度上升法逐步学习最优拉格朗日乘子:
λ
~
(
i
+
1
)
=
max
(
λ
~
(
i
)
+
γ
(
ρ
(
i
)
∗
(
h
(
i
)
)
2
−
P
0
)
,
0
)
;
ν
~
(
i
+
1
)
=
ν
~
(
i
)
+
γ
(
h
(
i
)
ρ
(
i
)
∗
(
h
(
i
)
)
−
μ
h
E
)
,
\begin{aligned} \tilde{\lambda}_{(i+1)} & =\max \left(\tilde{\lambda}_{(i)}+\gamma\left(\rho_{(i)}^*\left(h_{(i)}\right)^2-P_0\right), 0\right) ; \\ \tilde{\nu}_{(i+1)} & =\tilde{\nu}_{(i)}+\gamma\left(h_{(i)} \rho_{(i)}^*\left(h_{(i)}\right)-\mu_{h^E}\right), \end{aligned}
λ~(i+1)ν~(i+1)=max(λ~(i)+γ(ρ(i)∗(h(i))2−P0),0);=ν~(i)+γ(h(i)ρ(i)∗(h(i))−μhE),
此时,在第
i
i
i通信轮得到的最优功率
ρ
(
i
)
∗
(
h
(
i
)
)
\rho_{(i)}^*\left(h_{(i)}\right)
ρ(i)∗(h(i))可相应得到,相应的算法为
其中,离线与在线算法均基于subgradient method的收敛性得到。