孤立森林之大家都很长！

最新推荐文章于 2025-09-05 19:28:12 发布

原创最新推荐文章于 2025-09-05 19:28:12 发布 · 257 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #算法

机器学习同时被 2 个专栏收录

60 篇文章

订阅专栏

12 篇文章

订阅专栏

孤立森林的使用场景和效果

只根据isolation的概念，不用密度，距离等衡量标准。
由于下采样subsampling，只需要线性时间复杂度，空间复杂度也不高。
比one class svm，ORCA, LOF（以AUC为标准）效果好
iForest是two-staged方法，训练和验证 train and evaluate

Reference:
在这里插入图片描述

基本理念

异常点一般来说是稀疏的
使用k-d树类似的空间切分方式。 每次选择一个维度，切分空间，分成左右子空间，递归切分至只空间只有一个点或者每个点值都一样。
完全二叉树
如下图假如 $x_0$ 是异常值， $x_i$ 是正常值，可以判断, 异常值的切分次数少，也就是异常点到根节点的深度普遍小于正常值的深度。

具体怎么分空间？？

一个森林很多树
每一颗树，都是随机放回抽样抽取的sampling size $ϕ\phi$ 大小的数据集，也意味着这棵树生长完全的情况下，是有着 $ϕ\phi$ 数目的叶子节点
每次切分变量是随机选择 subsample的数据集的某特征q，随机选取某个值p进行切分
直到叶子结点只有一个点或者所有点都是一个值
最后生成t棵树，以上是训练过程。

1训练算法

在这里插入图片描述

在这里插入图片描述

2还有evaluate呢？

在这里插入图片描述
借助BST结构操作iForest

它综合考虑了所有子树的期望高度，然后带入指数函数，最后得到一个异常分数。
越接近1，表示越可能是异常值！
在这里插入图片描述
异常分 vs. 期望路径长度

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

万物琴弦光锥之外 给个0.1,恭喜老板发财

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。