66、运营级域名分类：数据、特征与实践

生活碎片

于 2025-07-24 11:39:46 发布

阅读量5

点赞数

CC 4.0 BY-SA版权

分类专栏：网络测量与安全：从PAM 2023看前沿进展文章标签：域名分类恶意域名受损域名

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/uber9/article/details/149891759

网络测量与安全：从PAM 2023看前沿进展专栏收录该内容

70 篇文章 ¥399.00 ¥499.90

订阅专栏

超级会员免费看

运营级域名分类：数据、特征与实践

1. 数据与特征选择

在设计域名分类器时，数据来源和特征的选择是关键的起始点，目的是区分不同类型的域名，如良性和恶意域名。

1.1 数据来源选择

数据来源选择的主要标准是其可用性。DNS声誉系统使用的数据集可以是公开的或非公开的。像Exposure、Notos或Predator中使用的被动DNS数据等特权或商业来源，只有有权访问这些数据的人才能使用。历史数据也存在类似问题，而且依赖非公开数据的系统，其可重复性和性能验证可能对独立研究人员来说困难甚至不可能。

相比之下，基于公开数据来源的系统没有这些问题，仍能达到较高的准确性，并且更有可能被相关运营商采用，包括DNS中介和执法机构等。例如，Mentor和Domain Classifier系统使用公开数据来源并展示了高准确性；De Silva等人结合公开和非公开数据实现了97.2%的准确率；COMAR使用公开和非公开数据区分受损和恶意注册的域名，去除非公开的被动DNS后，准确率仍可达97%。

1.2 特征重要性

特征重要性是指根据输入特征对目标变量预测的贡献程度为其分配分数的技术。按重要性对特征进行排名可以显示哪些特征无关紧要，从而可以省略，这有助于降低模型的维度、复杂度和数据收集需求，还能估计缺失特征对系统的影响。

在我们审查的DNS声誉系统中，只有Hao等人、Marooﬁ等人和Le Pochat等人记录了所提出模型的特征重要性。需要注意的是，即使是最重要的特征，如果在数据集中缺失且其值无法估计，也无法对目标变量的预测做出贡献。

1.3 真实标签数据

审查的系统使用分类

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。