网络安全中的数据探索与抽样方法
1. 探索性数据分析
1.1 相关性与回归分析
计算回归有多种方法,且几乎都很复杂。双变量数据的简单回归分析其实并不简单。相关性和回归分析的重点在于考量变量之间的关系。若一个变量能影响另一个变量,那便是有趣的结果。例如,某类恶意软件与某个体拥有的一组域名高度相关,这虽不能表明该个体就是恶意软件的创造者,但提示这种关系值得深入调查。
1.2 时间序列分析
时间序列分析是双变量分析的一种特殊形式,其中探索性变量是时间,响应变量是事件。比如,测量一个域名每分钟的查询量,或者每五分钟收集的网络流量,都能形成时间序列。
分析时间序列数据有助于对未来进行预测。例如,若每日记录收集到的恶意软件数量,就可据此预测未来收集的恶意软件数量,便于管理员规划存储,研究人员规划分析。再如,每月收集每小时更新的阻止列表,统计其中唯一 IP 地址的数量,能得到扫描 IP 地址数量的基线。从相关图表可知,1 月和 2 月扫描主机数量增加,3 月达到峰值,随后几个月呈下降趋势。以时间为横轴、响应变量为纵轴绘制时间序列图,是分析的有效开端。
1.3 数据可视化总结
以下是不同可视化方法及其适用的变量类型:
| 可视化方法 | 变量类型 | 示例 |
| ---- | ---- | ---- |
| 条形图 | 分类变量 | 图 5.2 |
| 直方图 | 离散定量变量 | 图 5.3 |
| 密度图 | 连续变量、时间序列 | 图 5.7 |
| 箱线图 | 直方图和密度图的替代 | 图 5.8 |
| 并排箱线图 | 二分
超级会员免费看
订阅专栏 解锁全文
36

被折叠的 条评论
为什么被折叠?



