域名长度与恶意性的测量研究
1. 研究背景
域名的特征会随时间发生变化。以顶级域名(TLDs)为例,2011 年互联网名称与数字地址分配机构(ICANN)宣布将接受新通用顶级域名(gTLDs)的申请,这使得 2011 年之前受限的少数顶级域名情况发生了改变。如果在 2010 年分析恶意域名并对其顶级域名进行推断,这些推断在如今可能不再适用,比如 .baseball 这个顶级域名在 2010 年并不存在。
有研究定义了一系列关于域名的词汇特征,将其视为恶意特征,这些特征包括:
- 域名长度
- 完全限定域名(FQDN)中的点号数量
- 关键词的出现情况
- 特定字符出现的概率
- 不同字符的数量
本研究将聚焦于域名长度这一特征。
2. 数据收集
2.1 第一数据集:垃圾邮件中的域名
通过在一段时间内收集垃圾邮件来创建数据集。具体操作是,使用一个被 Vade 标记为收集垃圾邮件的邮箱地址,以及另一个专门设置为只接收垃圾邮件的邮箱地址,在十个月的收集期内,对每封垃圾邮件的邮件头和正文进行解析,提取其中的域名。最终共收集到 15,414 个域名。
不过,这种方法存在问题。部分域名用于发送垃圾邮件,部分用于 URL 以传播恶意软件、窃取信息等。将这两类域名汇总在一起会造成混淆,而且无法确定垃圾邮件中 URL 里的域名是否真的具有恶意。经过重新分析,发现有 8,896 个域名用于发送垃圾邮件,7,780 个域名存在于邮件正文中的 URL 里,其中有 1,262 个域名同时出现在这两个列表中。
超级会员免费看
订阅专栏 解锁全文
22

被折叠的 条评论
为什么被折叠?



