5.1 引言
现实世界数据是“肮脏的”,主要体现在数据不完整、含有噪声、不一致、重复、高维度等方面;
5.2 数据预处理的主要内容
5.2.1 数据审核
准确性审核
适用性审核
及时性审核
一致性审核
5.2.2 数据筛选
5.2.3 数据排序
5.3 数据预处理办法
网络安全数据的预处理至少包括三个过程:一是数据清洗;二是数据融合;三是数据关联。
我们常常用完整性、一致性和准确性三个因素来衡量数据质量。
5.4 数据清洗
网络安全数据清洗的过程大致为:将不同途径、不同来源、不同格式的安全数据进行格式转换、垃圾过滤、数据去重、格式清洗等操作去除“脏”数据。以网络攻击知识库、网络安全情报库、黑白名单库等为基础,在海量原始数据规整过程中同步进行数据标注,将异常、报警、威胁、五元组等关键信息标记出来,形成精准的基础安全数据。
5.4.1 不完整数据
人工填充
忽略元组
用全局常量填充
用属性中间值填充
用相似样本的属性中间值填充
用最可能的值填充:还可以使用各种推理模型和工具,如回归、贝叶斯形式化方法、决策树等进行归纳推理,得到可能性较大的推测值来预测不完整的元组的缺失属性值。
5.4.2 不一致数据
对于数据不一致的处理方法,有时也被称为数据集成。
5.4.3 噪声数据
噪声数据是指存在错误或异常的数据,也包括哪些难以被机器正确理解和翻译的数据。去除噪声以“光滑”数据的常用方法如下:
分箱,它是通过考察数据周围近邻的值来“光滑”有序数据值,这些有序的值被分布到一些“箱”中,每个“箱”中的数据值都可以替换为箱中所有数据的均值或者边界值。
回归
聚类
5.4.4 数据清洗过程
两步骤:
数据清洗过程中要做的第一件事是检测偏差;
数据清洗过程中要做的第二件事是数据规整

本文详细阐述了网络安全数据预处理的各个步骤,包括数据审核、数据清洗、数据集成和数据规约。数据清洗涉及不完整数据的人工填充、不一致数据的处理、噪声数据的去除。数据集成解决异构性和分布性问题,而数据规约则通过属性选择和数据采样减少数据量,以保持数据的完整性。
最低0.47元/天 解锁文章
148

被折叠的 条评论
为什么被折叠?



