孤立森林算法原理
孤立森林的核心思想是利用异常数据"容易被隔离"的特性构建二叉树进行检测。算法递归地随机选择特征和分裂值划分数据空间,异常点因分布稀疏往往在较浅层就被孤立。路径长度作为异常分数,计算公式如下:
$s(x,n)=2^{-\frac{E(h(x))}{c(n)}}$
其中$E(h(x))$是样本$x$在多棵树中的平均路径长度,$c(n)$是给定样本数$n$时的路径长度规范化项。当$s$接近1时判定为异常。
传感器数据预处理技术
时间序列传感器数据需进行滑动窗口处理,窗口大小通常选择周期性特征的整数倍。常用统计量包括:
- 窗口均值:$\mu = \frac{1}{w}\sum_{i=t-w+1}^t x_i$
- 窗口标准差:$\sigma = \sqrt{\frac{1}{w}\sum_{i=t-w+1}^t (x_i-\mu)^2}$
- 差分特征:$\Delta x_t = x_t - x_{t-1}$
归一化采用Z-score方法: $x' = \frac{x - \mu}{\sigma}$
模型参数优化方法
关键参数通过网格搜索确定最佳组合:
- n_estimators:树的数量,通常100-200
- max_samples:单棵树使用的样本数,默认256
- contamination:预期异常比例,需领域知识预估
- max_features:每次分裂使用的特征数,默认全部
使用交叉验证评估参数效果,评估指标可采用:
订阅专栏 解锁全文
2501

被折叠的 条评论
为什么被折叠?



