网络安全数据分析:目标与陷阱
1. 相关性并不意味着因果关系
当出现相似的结果时,人们很容易认为是同一事件导致了这两种结果,但这是一种逻辑谬误。仅仅因为两个事件同时发生,就认为它们的原因相同是不准确的。
例如,有两个僵尸网络看似相关,但实际上它们有着不同的潜在原因。Donbot 僵尸网络以发送缩短 URL 的垃圾邮件而闻名,而 Virut 僵尸网络则是一个通用的网络犯罪僵尸网络,它们有着不同的底层代码和功能。
再看两个域名列表,一个来自恶意域名列表(https://malwaredomainlist.com),另一个来自思科的顶级百万域名列表。对这两个列表的二级域名中的字母和数字分布进行比较,发现它们的相关性为 0.98,这意味着它们的分布接近完美的线性关系。然而,这并不意味着这两个域名列表是相关的。思科数据集有 1950 个顶级域名(TLDs),而恶意域名列表只有 78 个。更重要的是,恶意域名列表是社区报告的恶意域名,而思科列表是高使用量且被认为是非恶意的域名。
由此可见,相关性可能是虚假的。发现相关性并不意味着研究结束,而意味着应该调查相关性的来源,要保持开放的心态,认识到它可能毫无意义。
2. 假设的含义
假设是被认为是真实的,或者至少是合理的事情。例如,假设互联网是一个全球网络,这是一个合理的假设,可以通过研究 IP 地址的分配、使用 GeoIP 数据或其他方法来证明其有效性。
在数据、数据收集、方法和分析结果中,常常会做出各种假设。假设必须有坚实的基础,不能凭空捏造并期望它们是真实的。
比如,研究目标是衡量对一个组织的攻击效果,假设可以对所有攻击进行编目,但并非所有
超级会员免费看
订阅专栏 解锁全文
1469

被折叠的 条评论
为什么被折叠?



