孤立森林(Isolation Forests)

 简介

        孤立森林是一个经典的异常检测算法,能处理大规模的多维数据。

        孤立森林认为异常样本通常few and different:相比正常样本,它们数量上比较少,特征值差异比较大。因此,异常样本更容易被孤立。孤立森林通过构建二叉树的方法孤立每一个异常样本——因为异常样本容易被孤立的特征,异常样本更靠近根节点,正常样本 at the deeper end of the tree。构建的这棵树被称为孤立树(Isolation Tree, iTree)。iTrees的集合即iForest。anomalies are those instances which have short average path lengths on the iTrees。

算法原理

iForest的训练方法与超参数的选择

        孤立森林将训练集通过不放回采样的方式采样得到t个子集。超参数t是iTree的个数,每棵iTree由子集构建而成。子集的大小为超参数subsampling size,通常很小,如128 。这里有下面几个问题:1. 为什么要通过随机采样得到的子集去构造iTree? 2. 超参数如何设?3. iTree是如何生成的?

为什么要通过随机采样得到的子集去构造iTree?

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值