稀疏传感器放置
Title
D-optimal sensor selection in the presence of correlated
measurement noise
Autor information
引用格式:Uciński, Dariusz. “D-optimal sensor selection in the presence of correlated measurement noise.” Measurement 164 (2020): 107873.pdf链接
Full text
Abtract
当所讨论的系统由偏微分方程建模并且测量噪声相关时,开发了一种传感器选择技术来最大化时空系统的参数估计精度。由于精确的相关结构可能并不精确,因此应使用普通最小二乘法进行估计,并且所得估计器的协方差矩阵的行列式是估计精度的度量。为了使传感器的选择在计算上易于处理,考虑了一个宽松的公式。由于其非凸性,采用了一种优化最小化算法。在其每次迭代中,使用极其有效的单纯形分解来最小化对原始非凸设计准则进行优化的凸正切代理函数。由于得到的松弛解是候选测量集合上的测量,而不是所选传感器的特定子集,因此使用随机化和限制交换算法将其转换为几乎最优的子集。仿真实验表明,所提出的方法与交换算法具有很强的竞争力,交换算法是迄今为止唯一可用的技术。所提出的技术的通用性使其适用于相关观测的最小二乘估计的其他测量选择问题。
Introduction
收集时空数据不可避免地会产生固有连续系统的离散空间和时间采样。因此,测量信号的信息含量可能非常低,即使这伴随着收集的大量数据[1]。测量点的“智能”定位可以降低仪器成本,提高观测过程的效率[2]。当部署大规模传感器网络时,这一点更为关键。由于通信带宽和传感器电池寿命的自然限制,不希望保持所有节点处于激活状态。因此,必须解决传感器选择/调度的问题,以便权衡收集的信息量与传感器激活的数量。
在本文中,我们对偏微分方程(PDE)控制系统(通常称为分布参数系统(DPS))的参数估计设计感兴趣[3]。传感器位置对它们的重要性已经在许多应用中得到了认可[4-6]。未知参数的精确估计决定了PDE模型的预测能力和适当控制策略的质量[7]。
由于技术原因,希望在实际数据收集之前确定“最佳”传感器位置。这意味着,适当的最优性标准的选择通常遵循最佳实验设计(OED)[8-10]的传统方法,并基于与估计参数相关的Fisher信息矩阵(FIM)上定义的各种标量性能度量。FIM的倒数是估计的协方差矩阵的CramérRa界,该界的“最小化”转化为估计的最小离散。这反过来又保证了估计的高精度,如果这些估计往往集中在未知参数的“真实”值周围(这一假设在一些不特别限制的条件下有效)。
这种方法可以追溯到[11]的工作,其思想随后在[12,13]中得到了扩展。专著[2,14,4]对这一非常活跃的研究领域进行了全面的概述。在过去的十年里,当要估计许多参数时,人们的工作基本上集中在参数估计的不适定性上。即使数据中的噪声非常低,它也可能转化为观测到的估计值的剧烈不稳定性。因此,在[15,16]中,应用了Tikhonov-Phillips正则化以及相对于先前噪声和参数分布平均的估计的均方误差最小化。或者,可以采用贝叶斯方法,其中通过包括关于估计参数的分布的先验信息来获得稳定效果。用于传感器定位的标准是后验协方差算子的迹[17-22]。
收集时空数据的一个特征是在不同地点和时刻进行的测量存在空间和/或时间相关性[23]。观测到的响应的偏差可能是由于不同地点常见的一些来源,例如整个空间区域范围内的天气波动[1]。然后经常发生的情况是,彼此靠近的几个测量设备不能提供比单个传感器更多的信息。同样,在同一测量点进行的一系列测量中的时间相关性是不可忽略的。
在存在相关观测的情况下,优化用于参数估计的观测策略被认为是非常困难的,因为FIM不再是对应于单个测量的信息矩阵的总和。这排除了优雅而强大的凸OED理论[8,9,24]的直接应用。
尽管如此,人们还是或多或少地成功地尝试了调整这一理论。这些方法大多是通用的,DPS的设置非常适合这个框架。将DPS状态解释为取决于时间和空间变量的非线性参数响应函数就足够了,其特殊性在于它被隐式地作为相应PDE的解给出。
专著[25]中提出的交换算法是最古老和最常见的工具,用于最小化FIM上定义的一些标量测度。参见[26,27,2,14]。基本上,它利用Sherman–Morrison–Woodbury公式来模拟不相关观测的交换算法[8,第12章]。对于传感器选择的设置,该方案从测量位点的任意初始子集开始,并且在每次迭代时,将该子集中的一个位点交换为未测量位点,以便最大化设计标准的值的减小。然而,这种贪婪的算法可能会陷入局部极小值。实现全局最优的一种方法可以是,例如,将其与启发式GRASP算法相结合[28]。
将该问题嵌入标准凸设计理论的一种方法是基于Mercer定理[29,30],使用协方差核的截断Karhunen-Loève本征函数展开来近似相关误差。这导致了随机系数回归模型,其中FIM还必须考虑其数量可能相当高的附加辅助参数。这使得随之而来的计算变得繁琐。
在工作[31,32,24]中,成功地尝试将测量点的选择嵌入到选择在所有候选点的集合上定义的最优测度的更一般的问题中。通过这种方式,可以使用标准的OED机制,并且可以建立类似于众所周知的Fedorov-Wynn机制的算法。这种非常优雅的方法被称为虚拟噪声方法,使用了许多调谐参数,这些参数的选择可能相当精细,并且连续问题是非凸的。
在[33]中,贝叶斯框架中考虑了 A 最优传感器选择。 所提出的凸松弛方法是[34,35]中开发的技术的推广,可归结为半定规划(SDP)问题(矩阵迹的 LMI 约束最小化)。 其解决方案用于通过随机化产生实际的传感器选择方案。 尽管该方法在技术上是合理的,但由于通用 SDP 求解器的应用,它可能涉及相对较高的大规模传感器选择的计算负载。
上述相关观测设计方法的一个共同特征是它们是为加权最小二乘法 (WLS) 量身定制的。 这意味着参数估计是为了最小化数据拟合标准,其中残差由测量误差的协方差矩阵的逆矩阵的元素加权。 不幸的是,这需要精确了解误差的相关结构,并且其错误指定可能会对估计器的效率造成严重损失。 为了避免这种损失,在不确切知道观测值的相关结构的情况下,通常首选普通最小二乘法 (OLS)(数据拟合标准只是残差平方和)。 尽管OLS方法的优化设计计算也需要指定相关结构,但其错误指定造成的潜在损失通常比WLS方法中错误指定相关结构造成的损失要轻[36]。 OLS 估计的效率可能低于 WLS 估计,但在许多情况下,由此产生的效率下降很小 [26,第 17 页]。 70]。
不幸的是,OLS方法和相关观测的设计问题仍然缺乏令人满意的解决方案。 在[26,Ch。 5]尝试通过将一组可接受的解决方案扩展到有符号的测量来找到近似解决方案,然后使用此类最佳设计通过将实验区域适当地划分为多个子区域并任意选择一个观测值来产生精确的设计 每个次区域的点。 但分区的优化和构建均不详细,留下了尴尬的问题。
在[36]中,最佳连续设计被视为设计区域上的概率测量,而不是特定的测量位置。 重点主要在于必要的最优性条件和普遍最优性的概念。 计算部分在那里不太重要,不能直接应用于传感器选择问题。 (作者承认他们使用的乘法算法构成了纯粹的启发式算法。)在补充论文 [37] 中,概述了将 D 最优概率度量转换为给定基数的精确设计的想法。 虽然直观上很清楚,但缺乏严谨性和实施细节。
一个有吸引力的替代方案是对交换算法进行调整,因为应用谢尔曼-莫里森-伍德伯里公式可能会带来高速度。 但这些公式的力量本质上与交换过程中矩阵扰动的小等级有关。 对于时空系统来说情况并非如此,在时空系统中,传感器通常在一系列连续的时刻进行测量。 这意味着当一个传感器处于休眠状态而另一个传感器处于活动状态时,产生的矩阵扰动不是低阶的,并且计算变得非常慢。 这就是为什么我们没有遵循这个研究方向。
本文报道的研究目的是开发一种传感器选择算法,用于使用 OLS 方法对由 PDE 描述的时空系统进行参数估计。 我们考虑有或没有有关估计参数的先验信息的设置。 采用OLS估计器协方差矩阵的对数行列式作为传感器选择的设计标准。 为了使由此产生的组合问题易于处理,我们通过允许二元决策变量取区间 [0 1] 中的任何值来放松它; 由于松弛问题仍然是非凸的,我们利用最优性标准的结构,在该结构中我们识别凹函数和凸函数的非凸组合。 我们证明,对于这些复合项,可以找到正切凸主项,这使得该设置非常适合应用迭代主化-最小化(MM)算法[38]。
我们采用了该算法,并表明可以使用早期作品中成功采用的极其有效的单纯分解算法[39]来执行代理主项的最小化[40,41,22,42,43]。 结果,相对较快地获得松弛解。 由于 MM 算法可能仅产生局部最小值,因此将其作为更通用计算方案的组成部分合并于此,从而更有可能获得全局解决方案。
不是使用耗时的全局优化求解器,而是通过解决一个非常简单的问题来生成有意义的起始传感器配置,即为不相关的 WLS 设置找到松弛解,并通过随机化组合对通过 MM 算法产生的松弛解进行后处理 和受限交换算法。 一方面,这足以产生非常接近全局优化器的解决方案(这种接近度,通过 D 效率量化,通常高于 99%)。 另一方面,数值实验提供的证据表明,通常比完整交换算法更快地确定最佳解决方案,而完整交换算法是 OLS 设置可访问的唯一参考。 当传感器数量较多且加速比可以超过两倍时,这一优势更加明显。
以下是这项工作所提供的主要贡献的简明摘要: 开发了一种新颖的方法,用于通过相关观测来为 OLS 设置选择 D 最优测量点。
所提出的宽松公式缓解了原始问题的组合性质所造成的严重困难。
通过惩罚传感器配置的项来扩展 D 最优标准,从而产生估计参数的不可识别性。
利用非凸最优性标准的特定形式来减少对存在强大算法的一系列约束凸 OED 问题的最优松弛解的确定。
开发一种有效的方法将宽松的解决方案转换为实际的传感器位置。 它包括在确定松弛解的同时强制权重稀疏,然后将它们(直到归一化常数)解释为在采样期间拾取相应候选点而无需更新传感器配置的概率。 然后通过交换算法的计算成本低廉的版本来修改示例中的最佳配置。
在有关空气污染问题中源识别的重要示例中验证了所提出方法的效率。 仿真实验提供的证据表明,所提出的技术可产生全局最优的传感器配置,并且通常比交换算法快得多。
论文[44]中包含了在没有参数先验信息的情况下将 MM 方案用于纯粹松弛设置的基本想法,但没有引入可识别性和稀疏性惩罚项,也没有方法将松弛解转换为传感器配置和 没有对松弛问题的微妙之处进行更深入的理论分析。 更重要的是,当前的贡献提出了 MM 方案,用于具有参数先验信息的设置,而如何构造凸代理函数几乎不明显。
第 2 节根据二元决策变量阐述了 D 最优测量选择问题。 在第 3 节中,这些变量被放宽,并阐述了放宽公式的一些重要特征。 第 4 节使这种方法更加通用,以便使其适应实践中遇到的各种测量选择框架。 第 5 节概述了 MM 方法,并针对有和没有参数背景信息的设置分别导出了两个凸代理函数。 在第 6 节单纯分解中,提出了最小化代理函数的建议工具。 第 7 节阐述了一种将宽松解转换为实际传感器配置的技术。 在第 8 节中描述了一个模拟示例,然后在第 9 节中讨论了相应的模拟结果。第 10 节中包含了一些结论性意见。附录对本文进行了补充,其中包含了严格展示主要结果所需的技术结果。 论文的一部分。
找到一个二元序列最小化
F
(
V
)
=
log
d
e
t
(
(
D
+
M
(
v
)
B
−
1
M
(
v
)
)
−
1
)
(1)
F(\mathcal V)=\log det((D+M(v)B^{-1}M(v))^{-1})\tag 1
F(V)=logdet((D+M(v)B−1M(v))−1)(1)
满足
v
T
1
=
n
v^T\mathbf{1}=n
vT1=n
接下来,开发了一种解决问题 1 的方法。其思想在于放宽
v
i
v_i
vi 上的 0-1 约束,从而允许它们取区间
[
01
]
[0 1]
[01]中的任何值; 并导致更容易处理的连续优化问题。 通过采用定制版本的迭代主化最大化(MM)算法[38,49]并结合极其有效的单纯分解技术[39,50],它的快速解决方案成为可能。 然而,由于松弛问题的非凸性,只能保证收敛到驻点。 因此,可以想象从不同的初始点多次重新启动该方法,这增加了接近全局最小值的机会。 第 7 节概述了一种仅产生一个初始点的有意义的替代方案。
显然,这种宽松公式的解决方案仅产生问题 1 最优成本的下界。因此,在本文的最后部分,我们使用随机化和受限的特别有效的组合将宽松解决方案转换为特定的传感器配置。
Majorization-minimization algorithm
乍一看,设计准则J1a和J2a的非凸性似乎使随之而来的优化问题变得异常困难。首先,所考虑的框架似乎超出了高效OED算法的范围。其次,可能存在许多局部极小值,迭代下降算法可能会陷入其中之一。然而,经过仔细研究,我们发现了一种利用对数行列式的凹性及其矩阵自变量的凸性的方法。我们的关键思想在于采用最优化最小化(MM)算法[38,49]。
MM技术的每次迭代都由两个步骤组成。在优化步骤中,构造了一个更简单的凸替代函数来代替原始目标函数。然后,这个漂亮的代理函数被最小化,得到的最小值作为实际目标函数的下一个近似值。尽管迭代次数可能比梯度下降算法更高,但设计良好的MM算法采用了易于最小化的代理函数。因此,通过这种真正简单的迭代,计算的总时间可能非常短暂。更重要的是,MM算法在稳定性方面往往难以击败。
原理
大化-最小化(MM)算法是一种用于解决某些非凸优化问题的优化技术。它在处理难以直接最小化,但可以通过更简单的凸函数进行大化(上限值)的函数时特别有用。MM 算法反复构建一系列更简单的大化函数,并在每一步对其进行最小化,以逼近原始的非凸目标函数。
MM 算法的总体思路可概括如下:
初始化:从优化变量的初始猜测开始。
主要化:每次迭代时,构建一个更简单的凸函数,在当前点对原始目标函数进行上界。这个函数通常称为大化函数。
最小化:相对于优化变量,最小化主函数。这一步会产生当前点的更新。
更新:用最小化步骤得到的新点替换当前点。
收敛:重复步骤 2-4,直到达到停止标准,如达到一定的迭代次数或达到所需的精度水平。
MM 算法背后的主要思想是,大化步骤确保目标函数在每次迭代时都有所下降,从而收敛到原始非凸函数的局部最小值。MM 算法对于具有简单凸上限或代理函数的非凸问题特别有效,因为这些问题可以很容易地最小化。
MM 算法已被应用于机器学习和优化的多个领域,包括解决矩阵因式分解、非负矩阵因式分解和聚类等问题。它为解决实际中具有挑战性的非凸问题提供了一个强大而灵活的优化框架。然而,MM 算法的收敛性取决于主化函数和初始化的选择,因此需要精心设计和分析,以确保收敛到理想的解决方案。
实例
让我们以使用 MM 算法的非负矩阵因式分解(NMF)为例进行分析。
在 NMF 中,我们给定了一个大小为 m x n 的非负数据矩阵 X,并希望找到两个非负矩阵 W (m x k) 和 H (k x n),使它们的乘积逼近原始数据矩阵 X:
X≈ WH
这里,k 是我们要从数据中提取的成分或特征的数量。
NMF 问题是非凸问题,直接求解具有挑战性。不过,可以使用 MM 算法来解决。我们可以用一个更简单的凸函数将目标函数(通常是近似误差的 Frobenius 准则)大化,然后迭代更新 W 和 H,使大化函数最小化。
初始化:从 W 和 H 的随机非负初始化开始。
大化:在每次迭代时,我们用一个更简单的凸函数||X - WH’||^2将近似误差||X - WH’||^2的弗罗贝尼斯规范大化,其中 H’ 是 H 的当前值。
最小化:我们在保持 H’ 不变的情况下,最小化 W 的 ||X - WH’||^2。
更新:使用最小化步骤得到的最优解更新 W。
对 H 重复步骤 2-4:现在我们有一个关于 H 的凸优化问题。我们在保持 W’ 不变的情况下,最小化关于 H 的 ||X - W’H||^2 。
更新:使用最小化步骤得到的最优解更新 H。
收敛:重复步骤 2-6,直到达到停止标准,如达到一定的迭代次数或达到所需的近似水平。
MM 算法会迭代更新 W 和 H,每一步都会确保减小近似误差的 Frobenius 准则。该算法最终会收敛到 NMF 问题的局部最小值,将数据矩阵 X 分解为非负矩阵 W 和 H。
NMF 有多种应用,例如在图像处理、文本挖掘和主题建模中,它被用来从非负数据中提取有意义的特征和表征。MM 算法使我们能够高效地解决非凸 NMF 问题,并找到原始数据的低秩信息表示。
使MM算法有效的一个关键因素是易于最小化代理函数。在考虑到设计标准(45)和(57)的光滑性和凸性的框架中,当与约束集W的有界多面体形式相结合时,由于其降低问题维数的优异能力和惊人的易实现性,使得使用单纯形分解(SD)[39,50]成为可能。这项强大的技术在从事最佳实验设计领域工作的工程师和统计学家群体中仍然鲜为人知,尽管事实证明它非常灵活和有用[40,22,41]。
Experienment
Conclusion
启发
- 将传感器选择表示为二元选择问题,这在凸松弛中已经采用,但是本文是在优化的目标函数中加入二元代理。
- 这是一篇关于空气污染排放源的识别与强度问题。