17、网络安全数据分析:目标与陷阱

网络安全数据分析:目标与陷阱

1. 分析前的考量

在决定进行测量之前,始终要考虑背景和目标,并确保测量是有用且合理的。数据往往具有独特性,即样本特有的小异常,但在总体中并不普遍存在。研究分析应适用于当前样本之外的数据集,避免过度拟合。

2. 避免过度拟合
2.1 研究者自由度问题

研究者自由度,也称为 p - 黑客行为,是导致过度拟合的常见原因。以下通过一个示例来说明:
假设一位研究者有 1000 个恶意域名,在连续三个月的每月第一天,确定每个域名指向的 IP 地址数量。分析过程中,研究者可能会做出如下错误选择:
- 由于第一个月和第二个月的平均值相似,研究者决定删除第一个月的数据。
- 发现前 398 个域名没有 IP 地址,便决定删除这些域名。

这些选择属于研究者自由度的范畴,具体包括:
- 筛选异常数据
- 重新缩放变量
- 使用图表和表格识别模式
- 拟合数据模型
- 用不同方法测量变量
- 操纵数据
- 分析开始后纳入额外数据
- 丢弃数据
- 对异常值和异常情况进行任意决策
- 更改分析方法

为避免过度拟合,可以采取以下步骤:
- 制定研究设计决策 :在分析数据之前做出决策,不要根据数据改变计划。
- 利用专业知识进行数据聚合 :例如按顶级域名(TLD)聚合域名,而不是按字母顺序聚合。
- 限制数据排除 :明确说明排除数据的原因。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值