2024.12.23_利用无标签众包数据进行环境感知定位

原创已于 2025-02-20 09:42:32 修改 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2025-01-01 21:11:16 首次发布

论文：Si, Haonan, et al. “Environment-Aware Positioning by Leveraging Unlabeled Crowdsourcing Data.” IEEE Internet of Things Journal (2024).
标签：WiFi、

摘要

本文提出了一个新型的定位模型：environment aware positioning (ENAP)， utilizing unlabeled
crowdsourcing trace data. 环境感知定位，利用无标签的众包跟踪数据。
分为一下三个步骤：①将无标签的众包跟踪数据转换为一个聚类空间；②将聚类空间映射到定位空间；③以无监督的方式不断更新定位模型
另外：①Short-term positioning: 为了提高众包用户设备异构的性能和鲁棒性，提出了一种自适应融合多信号特征的空间变换聚类方案。②Long-term positioning为了确保长期的定位稳定性和持续的环境感知能力(指的是基站的空间拓扑发生变化)，我们在ENAP中加入了一个动态重放存储器（用来收集最新的环境感知信息），使定位模型能够无监督地在线更新。

1. Introduction

为了解决信号变化和设备异构型问题，提出了一个fusion c-means(FuCM)聚类方法，区分来自不同位置收集的信号测量值signal measurements。（融合了多个导数特征，包括RSSI, difference fingerprint (DIFF), and hyperbolic location fingerprint (HLF)）
通过利用轨迹测量的连续性和采用calibrated multidimensional sacling(CMDS)方案，本文建立了一个从cluster spaces到positioning spaces的映射，从而确定cluster centers的位置。
随后，使用一个分类模型计算给定信号测量值的位置，以membership function作为权重。

2. Related works

研究现状：室内定位技术和基于众包的室内定位

3. Problem Formulation

A. Definition of Indoor Positioning
一个室内环境被多个基站覆盖。待定位目标可以采集来自这些基站的信号并测量其特征，例如RSSI、time of flight。注意：待定位目标在不同的位置采集的信号特征不一样，所以可以通过分析信号的特征来对目标进行定位。
假设有 $p$ 个基站，那么每个位置采集的measurement可以表示成 $f={f(1),f(2),…,f(p)}\mathbf{f} = \{f^{(1)}, f^{(2)}, \ldots, f^{(p)}\}$ ，其中 $f^{(i)}$ 表示来自第 $i$ 个基站的信号。所以定位算法的目标就是使用尽可能准确的 $f\mathbf{f}$ 来估计目标的位置。
（相当于采用的是下行信号的定位方式）
B. Current Solutions
当前的室内定位方法：三边定位和指纹定位。
C. Preliminary for the Proposed ENAP
收集众包数据：收集用户随着移动轨迹的信号数据（无位置标签）。
假设收集了 $NTN_\mathcal{T}$ 条轨迹，其中第 $j$ 条轨迹包含了 $q_j$ 轨迹点，收集的无标签measurements数据可以表示为 $Tj=⟨f1,f2,…,fqj⟩\mathcal{T}_j = \langle \mathbf{f}_1, \mathbf{f}_2, \ldots, \mathbf{f}_{q_j} \rangle$ 。则总的轨迹数据存储可以表示为 $F=⟨T1,T2,…,TNT⟩\mathcal{F} = \langle \mathcal{T}_1, \mathcal{T}_2, \ldots, \mathcal{T}_{N_\mathcal{T}} \rangle$ 。
在众包数据收集过程中，受到人为干扰或相邻信号的影响，可能会出现基站消失的问题，即目标在某个位置可能收集不到来自某个基站的信号（用RSSI=100dBm表示无法检测到基站）。
无法检测到基站的现象
引：信号强度的单位为dBm(分贝毫瓦)。一般来说，dBm 值越大，表示信号强度越强。接近 0dBm 的数值表示非常强的信号。例如，0dBm 意味着信号强度为 1 毫瓦。负数的 dBm 值表示较弱的信号。例如，- 30dBm 比 - 60dBm 的信号要强。
为了解决无法检测的基站的测量值问题，本文对数据进行了预处理。
如果来自某个基站的RSSI measurements在第 $i - 1$ 步和第 $i + 1$ 步都很高，而在第 $i$ 步没有被检测到，我们认为这种情况基站其实仍在可检测范围，只是因为某些原因被终端错过了。为了补全丢失的数据，可以采用以下的规则去处理replay memory $F\mathcal{F}$ :
在这里插入图片描述
其中 $β\beta$ 表示一个阈值参数， $f_{i}^{(k)}$ 表示在第 $i$ 步来自第 $k$ 个基站的RSSI measurement。

4. Proposed algorithm

所提的ENAP如图2所示，包含以下步骤：1) FuCM clustering; 2) space mapping; 3) optimization;
4) online updates; and 5) positioning.
在这里插入图片描述

A. FuCM Clustering

将无标签的信号数据分类成一系列的簇clusters，聚类方案FuCM。
首先，对于一个经过预处理的measurement replay memory $F=[f1,f2,…,fK]T\mathcal{F} = [\mathbf{f}_1, \mathbf{f}_2, \ldots, \mathbf{f}_K]^T$ ，定义一个 $c - 划分空间 (c - p a r t i t i o n s p a ce)$ ，如下所示：
在这里插入图片描述
解释：
$Mfc={U∣uik∈{0,1}∀i=1,2,…,Kc,k=1,2,…,K}M_{fc} = \left\{ \mathbf{U} \mid u_{ik} \in \{0,1\} \quad \forall i = 1,2,\ldots,K_{c}, k = 1,2,\ldots,K \right\}$ ，这里的 $u_{ik}$ 是一个二元变量，表示第 $i$ 个聚类是否包含第 $k$ 个测量数据；
$∑i=1Kcuik=1,∀k=1,2,…,K\sum_{i = 1}^{K_c} u_{ik}=1, \forall k = 1, 2, \ldots, K$ ，这意味着每个测量数据 $fk\mathbf{f}_k$ 只能属于其中一个聚类；
$\leq K_c < K$ ，其中 $K_c$ 表示聚类的数量，它至少为2且小于总的测量数据数量 $K$ 。
c-means函数的定义
在这里插入图片描述
解释：

函数被定义为 $Jm:Mfc×RKc×p→R+\mathcal{J}_m: M_{fc} \times R^{K_c \times p} \rightarrow R^{+}$
这意味着函数 $Jm\mathcal{J}_m$ 的两个输入是来自两个空间的元素：一个是 $M_{fc}$ 空间，另一个是 $RKc×pR^{K_c \times p}$ 空间（这里的 $R$ 表示实数集），而函数的输出是一个正实数 $R^{+}$
函数 $Jm\mathcal{J}_m$ 的表达式为： $Jm(U,V)=∑k=1K∑i=1Kcuiksik\mathcal{J}_m(\mathbf{U}, \mathbf{V}) = \sum_{k = 1}^{K} \sum_{i = 1}^{K_c} u_{ik}s_{ik}$
这里的 $\in M_{fc}$ 是测量重放记忆 $F\mathcal{F}$ 的一个c-partition（c划分）.
$[\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_{K_c}]^T \in R^{K_c \times p}$ 表示聚类中心的集合。这里 $vi\mathbf{v}_{i}$ 表示第 $i$ 个聚类中心，总共有 $K_c$ 个聚类中心，每个聚类中心是一个 $p$ 维向量。
$u_{ik}$ 是 $fk\mathbf{f}_k$ 的隶属函数。如果 $u_{ik}=1$ ，则表示测量数据 $fk\mathbf{f}_k$ 属于第 $i$ 个子集（聚类） $vi\mathbf{v}_{i}$ ；如果 $u_{ik}=0$ ，则不属于。
$s_{ik}$ 表示聚类中心 $i$ 与样本 $k$ 之间的相似度，通常用欧几里得距离(Euclidean distance)来度量。 $sik=∥vi−fk∥22s_{ik} = \|\mathbf{v}_i - \mathbf{f}_k\|_2^2$

然而，在室内定位中，由于环境变化和设备多样性，信号测量不稳定，仅仅利用欧几里得距离来衡量信号测量之间的相似度是不可靠的。
所以本文提出了一个融合相似度模型，考虑到了signal measurements的相对和绝对properties。包含：DIFF distance, HLF distance, and absolute measurement distance。有效的解决设备异构和信号不确定性的问题。（注意：以下的 $p$ 表示基站数。）

DIFF distance：信号强度差值。
HLF distance: 信号强度比值。
Absolute Measurement Distance：欧氏距离。

提出了一个融合相似性模型，目的是衡量聚类中心 $i$ 和测量样本 $k$ 之间的相似性：
在这里插入图片描述
这里的 $w_1、w_2、w_3$ 是相应的权重。满足 $∑l=13exp⁡(−ωl)=1\sum_{l = 1}^{3} \exp(-\omega_l)=1$ 。 $S\mathbf{S}$ 是输入数据库 $F\mathcal{F}$ 的距离矩阵。
结合式(3)和式(6)，可以得到：

为了增大簇间距离同时减小簇内距离，需要最小化融合权重约束的 $Jm\mathcal{J}_m$ :
在这里插入图片描述
使用拉格朗是乘数法将有约束的优化问题转化为无约束的优化问题（把 $λ1(∑l=13exp⁡(−ωl)−1)\lambda_1(\sum_{l = 1}^{3} \exp(-\omega_l)-1)$ 加进去）因为优化后最优值的时候 $∑l=13exp⁡(−ωl)\sum_{l = 1}^{3} \exp(-\omega_l)$ 一定等于1，只有其等于1的时候才会取得最小值。
在这里插入图片描述
接下来使用coordinate descent坐标下降优化方法进行迭代求最优值，具体分为以下三个步骤：

解释：

其实就是对属于某一簇的所有数据点进行加权平均得到簇的中心点 $v_i$

这里不知道具体怎么求导的？？？？
在这里插入图片描述
此所提的FuCM中的距离度量 $s_i$ 融合了不同的信号特征，包括RSS、DIFF、HLF。然后得到优化函数式(8)，目的是最小化J，利用拉格朗是乘数法将有约束的优化问题转化为无约束的优化问题即式(9)，然后利用坐标下降法优化求解 $u_{ik}、v_i、w_l$ 。这样就实现了簇的分类。并可以根绝 $u_{ik}$ 知道measurement $fk\mathbf{f}_k$ 属于哪个簇。

B. CMDS Space Mapping

CMDS目的：将cluster space转换为positioning space
前面已经使用FuCM将crowdsourcing signal measurements转换为了clusters序列。可以观察到相邻的clusters在真实位置空间中很大可能连接。举个例子，假设聚类5的一个用户可以通过一步step直接移动到距离4或者聚类2，这表明在欧式位置空间上 $x5\mathbf{x}_5$ 的位置与 $x4\mathbf{x}_4$ 和 $x2\mathbf{x}_2$ 的位置很近。(其中 $xi\mathbf{x}_i$ 表示聚类中心 $vi\mathbf{v}_i$ 对应的位置)。所以可以连接每个cluster序列的相邻cluster就可以得到一个cluster拓扑图(a cluster topology)。
在这里插入图片描述
下面可以定义一个聚类中心 $vi\mathbf{v}_i$ 与聚类中心 $vj\mathbf{v}_j$ 之间的连接状态the connection status：(其中 $C_{i,j}表示在所有轨迹样本中，从聚类i到聚类j的总的转换次数，我的理解是从轨迹的连续性方面确保聚类的位置是相邻的，满足多次才这两个聚类才可以建立连接$ )
在这里插入图片描述

注释：其实 $εi,j\varepsilon_{i,j}$ 就是表示两个聚类之间是否连接，如果等于1，说明连接；如果等于0，说明不连接。
接下使用图理论中的最短距离概念，通过以下迭代算法计算所有聚类中心的距离矩阵，用来描述不同聚类之间的距离。

在这里插入图片描述
这里 $ξi,w=0的时候表明聚类\xi_{i,w}=0的时候表明聚类$ i $与聚类$ j $之间没有链接，为什么此时还有距离这个概念，此时的距离表示什么？？？？$
回答：当i=w的时候， $ξi,w=0\xi_{i,w}=0$ ，则距离d就表示的是i到w的距离
假设在位置空间中cluster 中心的对应位置为 $X=[x1,x2,…,xKc]T\mathbf{X} = [\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_{K_c}]^T$ 。为了保持空间映射后簇中心之间的几何关系，那么如果 $d_{i,j}$ 越小，就让 $xi与xj\mathbf{x}_i与\mathbf{x}_j$ 之间的Euclidean distance越近。因此，制定了以下的目标函数：
在这里插入图片描述
其中 $K\mathcal{K}$ 是与clusters密度相关的尺度参数。由于 $K\mathcal{K}$ 的值不会影响cluster centers的相对拓扑，所以这里本文设置 $K=1\mathcal{K}=1$ 。通过对该目标函数进行优化（我的理解：距离距离d越小，那么聚类的实际位置坐标就越小，所以优化函数L，使其最小，那么|xi-xj|就会近似于dij差不多，也就得到了所谓的相对坐标），可以得到反映clusters中心在positioning space中相对布局relative layout的坐标矩阵 $X\mathbf{X}$ 。
另外，利用以下规律推到出绝对布局absolute layout：环境和运动因素通常会导致RSSI测量值的衰减而不是放大。因此，较强的RSSI测量值可以表明用户与相应基站之间的距离较短，一般称为近场条件。
基于此条件，我们可以将mapped position information 与基站positions关联，得到如下目标函数：
在这里插入图片描述
$pk\mathbf{p}_{k}$ 表示第 $k$ 个基站的位置， $q$ 是阈值参数。 $Xˉ=ΨX+b⊗I=[xˉ1,xˉ2,…,xˉKc]T\bar{\mathbf{X}} = \mathbf{\Psi}\mathbf{X} + \mathbf{b} \otimes \mathbf{I} = [\bar{\mathbf{x}}_{1}, \bar{\mathbf{x}}_{2}, \ldots, \bar{\mathbf{x}}_{K_{c}}]^{T}$ 表示经过线性变换后的坐标矩阵。 $Ψ∈R2×2\mathbf{\Psi} \in \mathbb{R}^{2\times2}$ 表示转换矩阵（大小为 $2×22\times2$ ，其实可以理解为对原始的坐标xy进行了一个缩放）。 $b∈R2\mathbf{b} \in \mathbb{R}^{2}$ （大小为2）表示偏差向量， $I∈RKc\mathbf{I} \in \mathbb{R}^{K_{c}}$ （大小为clusters的数量 $K_{c}$ ）表示元素全为1的向量，其实可以理解为对clusters中心的位置xy进行一个整体的偏移。 $⊗\otimes$ 表示the Kronecker product。另外，为了缓解奇异值问题， $q$ 应该好好选择，要使得 $vi\mathbf{v}_i$ 中最多只包含一个大于 $q$ 的元素（我的理解是 $vi\mathbf{v}_i$ 表示cluster的中心，他是一个 $1×p1\times p$ 的向量，其中p的值表示基站数，向量的值表示每个基站的RSSI，相当于只能有其中一个基站的RSSI大于设定的阈值 $q$ ，相当于确保只有信号最强的那个基站的位置距离cluster中心的位置最近。）
引：Kronecker product
在这里插入图片描述
通过最小化式（15）和式（16）中的目标函数，我们可以确定所有聚类中心的映射位置。因此，我们可以使用基于聚类中心位置的加权分类方法进行定位任务。

C. Optimization

1. 求解相对位置坐标 $X{\mathbf{X}}$

在这里插入图片描述

2. 求解绝对位置坐标 $Xˉ=ΨX+b⊗I\bar{\mathbf{X}} = \mathbf{\Psi}\mathbf{X} + \mathbf{b} \otimes \mathbf{I}$

在这里插入图片描述
需要至少已知位置的基站。

D. Online Updates and Positioning

为了使定位模型适应环境的变化，本文使用了以下的方法（个人感觉没啥创新点）
首先， $F\mathcal{F}$ 记录第一次收集的 $K\mathbf{K}$ 个信号测量值。随后，新收集的测量值也堆到 $F\mathcal{F}$ 里面，然后将相同数量最旧的测量值从 $F\mathcal{F}$ 中删除掉。这样处理以后，基于新的 $F\mathcal{F}$ 重新使用所提的ENAP方法计算出一个新的定位模型。
如何定位：
使用cluster centers $vi\mathbf{v}_i$ 和其对应的位置坐标 $xˉi\bar{\mathbf{x}}_i$ ，训练一个K-nearest neighbor (KNN) classifier，用KNN建立一个从cluster space到positioning space的桥梁。
给定一个testing measurement sample $fk\mathbf{f}_k$ ，首先使用式（6）计算它与cluster centers的距离
在这里插入图片描述
然后，通过选择最近的K个cluster centers，计算相应的位置坐标均值，从而可以推导出这个样本的位置。

具体的算法流程如图所示：

5. Experimental results

A. Simulation Experiments

1)Environmental settings:

20x20米的房间，部署9个基站，在室内随机走动，记录每个轨迹点的信号测量值。用户的方向随机选择：前、后、左、右、左前、左后、右前、右后、静止（9个方向）
在这里插入图片描述
对于每个用户，通过使用一下路径损失对数正态阴影模型（path loss log-normal
shadowing model？？？）沿着移动轨迹生成RSS测量值：

注释：根据用户与基站的距离生成RSSI值，同时考虑了SNR引起的噪声和设备异构性引起的误差，另外还考虑了基站不能被检测到的情况。
在这里插入图片描述

2)Comparison Algorithms:

在这里插入图片描述
使用average positioning results来评估定位精度。

3)Positioning Performance

Short-Term Positioning Accuracy:

Space mapping results：利用无监督众包数据，通过ENAP算法推出cluster layouts（在未知floor plan information先验信息情况下）
在这里插入图片描述
定位结果：

Cluster Performance:

采用Davies–Bouldin index (DBI) 评价网络的聚类效果（通过度量簇内相似度与簇间不相似度），DBI越小说明聚类效果越好，DBI定义如下：
在这里插入图片描述
聚类结果：

Comparison of Continual Environmental Awareness:

在这里插入图片描述

Parameter Analysis:

考虑基站部署（每个基站的覆盖范围不同）与信噪比对定位精度的影响：
在这里插入图片描述
设备异构性对定位精度的影响：

在这里插入图片描述

2024.12.23_利用无标签众包数据进行环境感知定位

摘要

1. Introduction

2. Related works

3. Problem Formulation

4. Proposed algorithm

A. FuCM Clustering

B. CMDS Space Mapping

C. Optimization

1. 求解相对位置坐标X{\mathbf{X}}X

2. 求解绝对位置坐标Xˉ=ΨX+b⊗I\bar{\mathbf{X}} = \mathbf{\Psi}\mathbf{X} + \mathbf{b} \otimes \mathbf{I}Xˉ=ΨX+b⊗I

D. Online Updates and Positioning

5. Experimental results

A. Simulation Experiments

1)Environmental settings:

2)Comparison Algorithms:

3)Positioning Performance

Short-Term Positioning Accuracy:

Cluster Performance:

Comparison of Continual Environmental Awareness:

Parameter Analysis:

1. 求解相对位置坐标 $X{\mathbf{X}}$

2. 求解绝对位置坐标 $Xˉ=ΨX+b⊗I\bar{\mathbf{X}} = \mathbf{\Psi}\mathbf{X} + \mathbf{b} \otimes \mathbf{I}$