异常检测(一)之基本概念与方法

异常检测方法详解:从统计学到非参数分析
本文介绍了异常检测的基本概念,包括异常值的特点和应用领域,以及面对的挑战。文中列举了多种异常检测方法,如统计学中的参数和非参数方法,如3西格玛法则、直方图、线性回归、主成成分分析;非参数方法中的孤立森林等。此外,还提到了基于距离和密度的度量方法,并强调了Feature Bagging和孤立森林在处理高维数据异常中的作用。

异常检测(一)之基本概念

1.什么是异常检测
即识别与正常数据不同的数据,与预期行为差异大的数据。
在这里插入图片描述
这张图里O1 O2 O3就是离群点。
在这里插入图片描述
这张图红点处为偏离的异常点,数据突然上升或者下降。

  • 异常值的特点:
    异常值不一定是坏的,我们对其成因感兴趣;
    异常值往往是在无监督的情况下完成,没有标签。

  • 异常检测应用:
    金融行业反诈骗;罕见病的检测;机器故障检测;网络流量入侵;图结构群体检测

  • 面对的挑战
    无监督
    运算开销大
    在实际应用中解释性较差
    检测的历史规则融合

  • 使用的工具
    Pyod:算法较多
    sk-learn:4种算法

  • 异常检测的常用方法
    统计学:

  • 参数——假定参数
    一元数据:正态分布,3西格玛法则
    多元数据:把多元转换成一元,当多元数据维度特征相互独立,求出每一维度的均值和标准差

μj=1m∑i=1mxj(i)\mu_j=\frac 1m\sum_{i=1}^m x_j^{(i)}μj=m1i=1mxj(i)

σj2=1m∑i=1m(xj(i)−μj)2\sigma_j^2=\frac 1m\sum_{i=1}^m (x_j^{(i)}-\mu_j)^2σj2=m1i=1m(x

### 入侵检测系统的基本概念 入侵检测系统(Intrusion Detection System, IDS)是种用于监控网络或系统活动的技术工具,旨在识别可能的入侵行为或违反安全策略的行为。IDS 的核心功能在于实时监测网络流量或主机活动,并根据预设规则或模式匹配技术判断是否存在恶意行为。旦发现可疑活动,IDS 可以触发警报或将事件记录到日志文件中以便后续分析。 现代入侵检测系统通常分为两大类:基于网络的入侵检测系统(NIDS)和基于主机的入侵检测系统(HIDS)。前者专注于监控整个网络中的数据流,而后者则侧重于特定设备上的操作系统审计和文件完整性检查[^1]。 --- ### 常见的入侵检测方法 #### 1. **特征检测** 特征检测也称为签名检测,它依赖已知攻击模式的数据库来识别威胁。当网络流量或系统行为这些预先定义的攻击特征相匹配时,系统会发出警告。这种方法的优点是可以精确地检测出已被研究过的攻击类型;然而,对于未知攻击或零日漏洞,则显得力不从心[^2]。 #### 2. **异常检测** 异常检测通过建立正常行为的基线模型,任何偏离此模型的行为都会被标记为可疑。这种技术可以捕捉新型攻击形式,因为它并不局限于具体的攻击签名。不过,由于缺乏足够的训练样本可能导致较高的误报率,在实际应用中需谨慎调整阈值参数[^3]。 #### 3. **机器学习深度学习驱动的方法** 近年来,随着人工智能技术的进步,越来越多的研究者尝试利用机器学习算法改进传统入侵检测方式。例如,监督式学习可用于构建分类器区分合法请求非法操作;无监督聚类可以帮助挖掘隐藏在网络通信背后的潜在风险因素。另外还有半监督以及强化学习等多种变体正在探索之中。 #### 4. **分布式协同工作架构下的混合型方案** 考虑到单节点上运行复杂计算任务可能会带来性能开销问题,因此出现了多台设备间共享情报信息并共同完成决策过程的设计思路——即所谓的“分布式协作”。这种方式不仅提高了整体效率还增强了鲁棒性面对大规模DDOS等情况尤为有效[^4]。 --- ```python import pandas as pd from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestClassifier # 加载数据集 (假设我们有个包
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值