基于降维的聚类协议分类及其实验结果
1. 基于降维的协议分类概述
协议分类通过降维来实现,相关算法可应用于商业网络,且该方法具有通用性,适用于其他类型的数据集和网络。此过程的输入是协议分类流量分析器生成的矩阵,该矩阵包含元数据的统计信息。协议分类和识别实时进行,包含一个预先确定的训练步骤,之后再进行实时分类。训练步骤为分类步骤搭建基础架构。
2. 实时协议分类过程概述
实时协议分类算法包含两个连续步骤:
1. 训练 :研究和分析训练数据集,将其投影到低维空间,然后对投影数据点进行聚类、分类和识别。此步骤以离线模式进行,时间间隔因网络而异,其频繁应用取决于被分类系统的行为特征。该步骤的输出用于后续步骤的协议分类。
2. 分类和识别 :应用自动无监督工具,实现网络流量的实时分类和识别,检测问题(如异常、木马、数据泄露和入侵)。将每个新到达的数据点分类为已知协议(正常,根据训练阶段)或异常(不属于训练集中的任何聚类)。
训练步骤基于离线入侵检测算法,但有一些修改和扩展,如将归一化步骤替换为对数归一化,这种归一化快速高效,其余步骤保持不变。最后对降维后的数据应用K - Means聚类,每个聚类被分类为应用程序家族之一,该训练步骤的输出是实时分类过程的基线配置文件。
实时分类步骤首先对新到达的数据点取对数进行归一化,然后应用几何谐波扩展嵌入基线矩阵,得到新的数据点嵌入,最后使用基线配置文件将新数据点分类为正常或异常。
3. PCR算法的高级描述
PCR算法主要步骤如下: