运营级域名分类:数据、特征与实践
1. 数据与特征选择
在设计域名分类器时,数据来源和特征的选择是关键的起始点,目的是区分不同类型的域名,如良性和恶意域名。
1.1 数据来源选择
数据来源选择的主要标准是其可用性。DNS声誉系统使用的数据集可以是公开的或非公开的。像Exposure、Notos或Predator中使用的被动DNS数据等特权或商业来源,只有有权访问这些数据的人才能使用。历史数据也存在类似问题,而且依赖非公开数据的系统,其可重复性和性能验证可能对独立研究人员来说困难甚至不可能。
相比之下,基于公开数据来源的系统没有这些问题,仍能达到较高的准确性,并且更有可能被相关运营商采用,包括DNS中介和执法机构等。例如,Mentor和Domain Classifier系统使用公开数据来源并展示了高准确性;De Silva等人结合公开和非公开数据实现了97.2%的准确率;COMAR使用公开和非公开数据区分受损和恶意注册的域名,去除非公开的被动DNS后,准确率仍可达97%。
1.2 特征重要性
特征重要性是指根据输入特征对目标变量预测的贡献程度为其分配分数的技术。按重要性对特征进行排名可以显示哪些特征无关紧要,从而可以省略,这有助于降低模型的维度、复杂度和数据收集需求,还能估计缺失特征对系统的影响。
在我们审查的DNS声誉系统中,只有Hao等人、Maroofi等人和Le Pochat等人记录了所提出模型的特征重要性。需要注意的是,即使是最重要的特征,如果在数据集中缺失且其值无法估计,也无法对目标变量的预测做出贡献。
1.3 真实标签数据
审查的系统使用分类