空间属性数据的异常检测技术解析
1. 问题定义
在处理空间数据的异常检测问题时,需要以一种通用的方式来定义问题,以便大多数异常检测技术都能适用。
考虑一组对象 $D = {d_1, d_2, \cdots, d_n}$,其中每个对象 $d_i$ 可以由预定义模式中的一组属性值表示:
$d_i = [s_{i1}, s_{i2}, \cdots, s_{im_s}, v_{i1}, v_{i2}, \cdots, v_{im_v}]$
这里,前 $m_s$ 个属性被指定为空间属性,其余的 $m_v$ 个属性为非空间属性,我们将非空间属性称为值属性。例如,在图 1 的示例中,每个单元格是一个数据对象,其空间属性是由 $x$ 和 $y$ 坐标定义的空间位置,而单个值属性表示温度。在流行病研究中,数据点可能是人,其空间属性是地理坐标,值属性是一个布尔属性,表示是否患病。在天气建模中,温度、湿度等可能构成不同的值属性。
此外,异常识别方法使用基于数据点空间属性定义的接近度概念。对于网格单元形式的数据,接近度度量可以简单地是邻接矩阵,用于确定一组单元是否相连。对于点形式的数据,这可能是在空间属性上定义的相似性度量。
异常检测的问题是识别一组异常 $A = {A_1, A_2, \cdots, A_k}$,使得每个集合 $A_i \subseteq D$ 符合以下标准:
- 空间连贯性 :$A_i$ 中的对象集合满足在空间属性上定义的连贯性条件。例如,它们是空间属性定义的空间内圆形或椭圆形区域中的唯一对象,或者它们在网格数据集中形成一组相连的单元。
- 与上下文的对比
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



