空间属性数据的异常检测方法解析
1. 空间扫描统计的扩展
空间扫描统计有众多扩展。贝叶斯空间扫描统计提出了一种贝叶斯方法,它更易于整合先验信息,并且通过避免随机化测试阶段,能提供更好的响应时间。此外,研究还致力于放宽原始框架中热点的形状限制,如将其扩展到椭圆和任意形状。
2. 数据挖掘方法
数据挖掘社区对识别全局发散异常的问题关注较少,主要有自上而下和自下而上两种直观方向。下面介绍一种自上而下的方法——Bump Hunting。
- Bump Hunting算法
- 适用场景 :适用于只有一个值属性的空间数据集。
- 算法步骤 :
- 从将整个空间数据集置于一个空间框B开始。
- 按照贪心策略迭代地从B中剥离空间子框:
[B = B - \arg\max_{b\in C(b)}\text{average}{v_{i1}|d_i \in B - b}]
其中,(C(b))表示可剥离的空间子框集合,(v_{i1})是对象(d_i)的唯一值属性。该策略会剥离使B中剩余对象的值属性平均值最大化的空间子框。
- 当B中的对象数量小到进一步剥离会违反支持阈值时,剥离过程停止。
- 为了部分弥补贪心策略导致的次优性,会应用粘贴阶段,通过粘贴子框来扩大框的大小,粘贴时的考虑因素与剥离阶段类似。
- 局限性与改进方向 :该方法是全局发散异常检测的一个特殊情况,需要进行调整以处理检测多个异常的问题。将其扩展到具有多个值属性的数据集是可行的,但并不直
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



