孤立森林实现_一种基于Flink的孤立森林算法并行化的异常检测方法及装置与流程...

最新推荐文章于 2025-06-25 17:29:30 发布

原创

最新推荐文章于 2025-06-25 17:29:30 发布 · 610 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#孤立森林实现

一种利用Apache Flink实现的孤立森林算法并行化异常检测方法，提高了计算速度，适用于海量数据的实时检测。通过配置Flink读取数据源，采用随机抽样构建二叉树，利用并行化处理提升效率。

本发明涉及异常检测计算领域，尤其涉及一种基于flink的孤立森林算法并行化的异常检测方法及装置。

背景技术：

异常检测，通常是指一种非监督的找出与预期数据差距较大数据的一个过程。被检测出的数据通常被称为异常点或者离群点。异常检测在很多领域都发挥了重要的作用，例如：入侵检测系统、信用卡反欺诈、智能运维等。

通常异常检测有以下几种检测方法：基于统计学的方法、基于邻近度的方法、基于密度的方法、基于聚类的方法等。但是他们都有各自的缺点，基于统计学的方法对于单个维度的异常检测比较有效，但是对于多个维度的，检测的效果的效果和性能都比较差；基于邻近度的方法不能处理具有不同密度区域的数据集，因为密度是局部特征，而距离是全局特征，它无法考虑到局部密度的变化；基于密度的方法克服了基于邻近度无法考虑全局密度的问题，但是其不适合高维数据，计算复杂度也较高；基于聚类的方法需要选择合适的类簇的个数，类簇的个数对于异常检测的效果影响较大，实际使用中很难对其进行选择。

技术实现要素：

本发明的目的在于提供一种基于flink的孤立森林算法并行化的异常检测方法及装置。

本发明采用的技术方案是：

一种基于flink的孤立森林算法并行化的异常检测方法，其包括以下步骤：

步骤1、读取历史数据：通过配置flink读取方式从多种数据源读取历史数据；

步骤2、对数据进行抽样：通过配置flink的抽样方式随机从历史数据中抽取n次，产生n个数据集，等待itree的构建；

步骤3、从数据集中随机抽取一个维度，再随机选择该维度下的一个值，将数据集构造成二叉树；然后分别在左右子树上分别执行上述过程，直到达到一棵树构建完成时结束；

步骤4，判断是否达到设定的训练次数n，n为大于1的整数；是则，完成iforest的构建并执行步骤5；否则，执行步骤3；

步骤5、判断是否存在异常：根据样本点在所有itree中的深度，使用归一化公式计算异常度得分，进而根据异常度判断是否异常。

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。