Isolation Forest

最新推荐文章于 2025-03-19 10:23:50 发布

原创最新推荐文章于 2025-03-19 10:23:50 发布 · 368 阅读

3 ·

CC 4.0 BY-SA版权

算法同时被 2 个专栏收录

18 篇文章

订阅专栏

异常检测

3 篇文章

订阅专栏

IsolationForest是一种用于异常检测的高效算法。它通过构建多棵二叉树(iTree)来隔离异常点，异常点通常需要较少的分割即可被隔离。本文详细介绍了IsolationForest的原理，包括训练过程和预测方法，以及如何计算数据点的异常分值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

什么是Isolation Forest?

Isolation Forest的思路很简单。假设我们的数据集合是一维空间下的点

我们通过切分的方式可以很方便的将异常点B点切分出来。

如何定义方便？

切分的次数

那这个思路对于正常点点A来说也可以取，可以看到如果要把A隔离出来我要切很多遍。

Isolation Forest算法

1.训练:抽取多个样本，构建多棵二叉树(isolation tree，即iTree);

2.预测:综合多棵二叉树的结果，计算每个数据点的异常分值。

训练

构建一棵iTree时，先从全量数据中抽取一批样本，然后随机选择一个特征作为起始节点，并为该特征的最大值和最小值之间随机选择一个值，将样本中小于该取值的数据划到左分支，大于等于该取值的划到右分支。然后，在左右两个分支数据中，重复上述步骤，直道满足如下条件:

1.数据不可再分，即:只包含一条数据，或者全部数据相同。

2.二叉树达到限定的最大深度。

预测

计算数据x的异常分值时，先要估算它在每棵iTree中的路径长度(也可以叫深度)。具体的，先沿着一棵iTree，从根节点开始按不同特征的取值从上往下，直到达到某叶子节点。假设iTree的训练样本中同样落在x所在叶子节点的样本数为T.size，则数据x在这棵iTree上的路径长度h(x)，可以用下面这个公式计算: