7、基于机器学习的图异常检测策略研究

基于机器学习的图异常检测策略研究

1. 引言

在大数据分析中,异常值的存在就像一颗“烂苹果”,会破坏整个“数据堆”的质量。在当今时代,现实世界的数据往往是杂乱、不一致、不完整且充满噪声的,其来源广泛、大小不一、速度各异。数据正以惊人的速度增长,这给数据的捕获、整理、存储、查看、搜索、共享、传输、可视化和分析带来了巨大的挑战。

异常值的出现可能由人为错误、设备故障、偏差率、恶意软件、系统故障、采样误差等多种原因导致。在异常检测中,存在一些普遍的挑战:
- 难以精确区分正常数据和异常数据的边界。
- 噪声数据常被误判为异常值,反之亦然。
- 异常检测技术缺乏通用性,不同应用场景需要不同的方法。
- 训练数据集的数据可用性应足够。
- 随着数据集数量的增加,异常检测技术也应相应发展。
- 使用传统的异常检测技术处理高维数据会导致高计算成本。
- 在分布式系统中,异常检测算法必须最小化不同数据存储站点之间的通信开销和同步开销,以及对数据的扫描次数。

根据数据实例数量和数据类型,异常值可分为多种类型,如点异常值、上下文异常值和集体异常值。遇到异常值时,可以采取一些措施,如纠正错误、检查分布假设、生成包含或不包含异常值的模型以评估其影响、查找群体异常值、进行采样和子采样等。但消除异常值可能会移除一些有用的观察数据,迭代子采样可能会在模式分析中引入偏差。

异常值分析在许多领域都有应用,如反社会行为、社交网络、道路网络、电信、银行、网络空间、关键系统、化合物、地球科学、传感器网络和图像处理等。异常值的存在会降低数据质量,因此数据预处理是大数据分析中必不可少的步骤。

2. 广义机器学习异

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值