基于机器学习的图异常检测策略研究
1. 引言
在大数据时代,数据呈现出脏、不一致、不完整和嘈杂的特点,且来源广泛、大小不一、速度各异。数据的快速增长给捕获、存储、分析等带来了挑战,识别异常值变得至关重要。异常值在不同应用中有多种称呼,其产生原因包括人为错误、设备故障等。
1.1 异常值检测的挑战
- 难以精确区分正常和异常数据的边界。
- 噪声数据常被误判为异常值,反之亦然。
- 异常检测技术缺乏通用性,不同应用需不同方法。
- 训练数据集的数据可用性应充足。
- 随着数据集的增加,异常检测技术需不断进化。
- 传统异常检测技术处理高维数据时计算成本高。
- 在分布式系统中,异常检测算法需最小化通信和同步开销。
1.2 异常值的分类
异常值可根据数据实例数量和数据类型进行分类,具体如下表所示:
|分类依据|具体类型|
| ---- | ---- |
|基于数据实例数量|点异常值/全局异常值、条件异常值/上下文异常值、集体异常值|
|基于数据类型|向量异常值、序列异常值、轨迹异常值、图异常值(点异常值、上下文异常值、集体异常值)|
1.3 异常值处理措施
遇到异常值时,可采取以下措施:
- 纠正错误。
- 检查分布假设。
- 生成包含或不包含异常值的模型以评估效果。
- 查找组异常值。
- 采用采样和子采样方法。
异常值分析在多个领域有应用,
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



