无监督异常检测技术在测井数据中的应用与比较
1. 无监督异常检测的挑战
在许多实际应用中,异常值的比例是已知的。例如,在医疗领域,可以很好地估计感染某种罕见疾病的人群比例;在工厂装配线上,也能较好地估计有缺陷机械零件的比例。然而,在处理测井和其他地球物理数据集时,异常值的预期比例事先并不一定已知,因为这个比例取决于多个因素,如测井时的操作条件、地层类型、传感器物理特性等。这给在测井数据和其他地球物理数据上应用无监督异常检测技术(ODT)带来了重大挑战。
在无监督条件下,ODT的准确性和鲁棒性依赖于超参数的值。超参数是用户在对数据集应用数据驱动方法之前指定的参数,它们控制着数据驱动方法的学习过程,并决定数据驱动模型的最终函数形式。超参数决定了学习过程,而参数(权重)则是学习过程的结果。超参数的选择会使一个无监督异常检测模型在同一数据集上的表现比其他异常检测模型差。不幸的是,在对测井和地下数据使用无监督ODT时,没有关于超参数的先验信息。通常,需要在没有任何超参数调整和超参数先验信息的情况下,将无监督ODT应用于测井和地球物理数据集。我们研究的主要动机是确定一种需要最少超参数调整和人工干预的最佳无监督ODT方法。
2. 四种无监督异常检测技术
2.1 隔离森林(Isolation Forest,IF)
隔离森林假设异常值往往位于特征空间的稀疏区域,与密集聚类的正常/内点数据相比,它们周围有更多的空白空间。由于异常值在数据集中的数量较少且处于不太密集的区域,通常只需要较少的随机分区就能将它们隔离到一个段/分区中。换句话说,由于异常值数量少且与其他数据不同,它们更容易被隔离。
IF是一种无监督ODT,它使用一片随机分区的
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



