网络安全数据分析:目标与陷阱
1. 分析前的考量
在决定进行测量之前,始终要考虑背景和目标,并确保测量是有用且合理的。数据往往具有独特性,即样本特有的小异常,但在总体中并不普遍存在。研究分析应适用于当前样本之外的数据集,避免过度拟合。
2. 避免过度拟合
2.1 研究者自由度问题
研究者自由度,也称为 p - 黑客行为,是导致过度拟合的常见原因。以下通过一个示例来说明:
假设一位研究者有 1000 个恶意域名,在连续三个月的每月第一天,确定每个域名指向的 IP 地址数量。分析过程中,研究者可能会做出如下错误选择:
- 由于第一个月和第二个月的平均值相似,研究者决定删除第一个月的数据。
- 发现前 398 个域名没有 IP 地址,便决定删除这些域名。
这些选择属于研究者自由度的范畴,具体包括:
- 筛选异常数据
- 重新缩放变量
- 使用图表和表格识别模式
- 拟合数据模型
- 用不同方法测量变量
- 操纵数据
- 分析开始后纳入额外数据
- 丢弃数据
- 对异常值和异常情况进行任意决策
- 更改分析方法
为避免过度拟合,可以采取以下步骤:
- 制定研究设计决策 :在分析数据之前做出决策,不要根据数据改变计划。
- 利用专业知识进行数据聚合 :例如按顶级域名(TLD)聚合域名,而不是按字母顺序聚合。
- 限制数据排除 :明确说明排除数据的原因。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



