清理网络:从内部开始保障网络安全
1. 垃圾邮件发送者检测
在检测垃圾邮件发送者时,采用了一种快速且简单的方法。若主机发送的电子邮件数量和字节数高于观察到的平均值加上一定倍数的标准差,就会被视为垃圾邮件发送者。具体公式如下:
[
(ni > avgn + \sigma stdn) \text{ 或 } (bi > avgb + \gamma stdb)
]
在本文中,基于初步实验,(\gamma) 和 (\sigma) 都设为 3。满足此条件的主机构成集合 (S),该集合通过对所有电子邮件发送者进行线性迭代构建。
2. 电子邮件发送者聚类
在开始聚类算法之前,需要为每个单独的流获取以下元组:<源 IP 地址,目的 IP 地址,目的 UDP/TCP 端口,字节数,数据包数>。之后,将这些流分为两个子集:
- (F_s):包含与垃圾邮件发送者相关的所有流。
- (F_a):包含其他机器的所有剩余流。
然后,为每个流 (f \in {F_s \cup F_a}) 计算之前定义的指标((f_{ph}f),(pp_ff),(bpp_f))。
为降低计算复杂度,首次聚类过程聚焦于可疑 IP 地址(潜在垃圾邮件发送者),并创建包含 (F_s) 聚合流信息的聚类。由于缺乏先验知识,需要进行无监督聚类。同时,由于不假设聚类的形状,因此采用最近邻聚类算法。基于中心点的方法因计算开销大而被排除。
最近邻聚类假设,如果两个数据点之间的距离 (dist(d_1, d_2)) 低于阈值 (\theta),则它们属于同一聚类。在本文中,每个数据点表示为向量 ([f
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



