运营域名分类:多模型系统处理缺失值及性能评估
在域名分类领域,数据中存在缺失值是一个常见且棘手的问题。简单的缺失值处理技术,如中位数或均值插补,可能会产生有偏差的结果。为了更有效地处理缺失值,我们提出了一种新的多模型系统方法。
多模型系统处理缺失值
-
特征分组
- 我们将特征分为10个不同的集合,每个集合中的特征要么全部可用,要么全部缺失。例如,词汇特征集(FS1)包含5个特征(F1:数字比例,F2:是否有著名品牌名称,F3:子域名级别,F4:特殊关键词,F5:连字符数量),这些特征不依赖于主动测量或外部第三方服务,系统接收输入URL后即可生成。而技术特征集(F11:是否有易受攻击的技术,F12:技术数量)则严重依赖于域名主页的HTML内容和HTTP头。
- 我们分组特征的方法是基于缺失值率的实证评估,与仅根据类别分组的方法不同。
-
模型数量计算
-
有8个特征集可能存在缺失值(FS2 - FS10),我们使用以下公式计算需要训练的模型数量:
[
\text{number of models} = \sum_{n = 0}^{8} \binom{9}{n}
] - 其中,n是移除的特征集数量,8是移除特征集的最大数量。最终我们创建了511个模型。
-
有8个特征集可能存在缺失值(FS2 - FS10),我们使用以下公式计算需要训练的模型数量:
-
模型训练
- 基于之前的工作结果和逻辑回归方法在运营COMAR系统中的成功应用,我们使用逻辑回归作为分类方法。逻辑回归使用加权输入特征值的组合来预测输出概率,便于解释和评估注册域名的恶意性。
- 我们使用两种来源的真实数据进行训练。第一种是自动生成的数据(Ground Truth 1,GT1),代表可能有缺失值的真实世界域名样本;第二种是手动标记的数据(Ground Truth 2,GT2),该数据集没有缺失值,可将特殊情况引入训练和测试。
- 训练过程分为511次迭代,每次迭代代表移除一到八个选定特征集后的特征集子集。我们使用每次迭代的特征向量来训练和评估每个模型。例如,某次迭代的特征向量不包含WHOIS(FS2)特征集,即仅使用FS1和FS3 - FS10。完整模型使用来自GT1和GT2的具有完整特征向量的记录进行训练,其他移除了特征集的模型使用GT1和GT2中剩余特征值全部存在的域名进行训练。
性能评估
-
评估方法
- 为了评估模型,我们使用了分层K折交叉验证(Stratified K - fold Cross - Validation,SKCV),K = 10。由于我们的真实数据集不平衡,SKCV能确保每个折保持与原始分布相同的类别比例(恶意和受损标签),从而更准确地评估模型。
-
评估指标及结果
- 我们使用常见指标评估模型性能,如Matthews相关系数(MCC)、假阴性率(FNR)和假阳性率(FPR)等。
-
表4展示了未标记数据集中覆盖样本最多的前十个模型(移除特征集的组合)的分布情况:
| 缺失特征集 | 覆盖率(%) | 模型MCC | 模型FNR |
| — | — | — | — |
| 无 | 36.5 | 0.87 | 0.08 |
| FS4, FS5, FS9 | 10.5 | 0.87 | 0.11 |
| FS9 | 10.2 | 0.87 | 0.10 |
| FS2 | 7.7 | 0.78 | 0.14 |
| FS8 | 5.8 | 0.86 | 0.09 |
| FS3, FS4, FS5, FS6, FS9 | 4.6 | 0.80 | 0.23 |
| FS2, FS4, FS5, FS9 | 3.7 | 0.79 | 0.20 |
| FS2, FS3, FS4, FS5, FS6, FS9 | 3.1 | 0.65 | 0.41 |
| FS3, FS6, FS9 | 3.1 | 0.82 | 0.20 |
| FS8, FS9 | 2.7 | 0.86 | 0.12 | -
完整模型的MCC为0.87,准确率为93.67%。移除WHOIS特征集的模型是一次移除一个特征集的模型中最显著的异常值(MCC:0.78,FNR:14.2%),这表明黑名单时的域名年龄是一个强特征,其缺失会导致性能显著下降。
-
即使MCC是评估不平衡类别分布的二元分类性能的合适方法,但仍需考虑其他指标,如假阴性率和假阳性率。例如,仅使用基于WHOIS计算的域名年龄(F6)的模型MCC为0.78,但FNR较高(26.1%),使用时需谨慎。
3. 模型选择 - 系统可以根据不同的用例进行调整。如果调查人员需要精确分类,可仅使用性能指标良好的模型(如MCC ≥ 0.85且FNR ≤ 10%),这些模型可覆盖43.2%的未标记数据。如果仅需要分类结果用于观察滥用域名的总体趋势,则可以选择更宽松的要求(如MCC ≥ 0.7且FNR ≤ 20%),可覆盖80.6%的数据集。
以下是多模型系统处理缺失值的流程图:
graph TD
A[输入特征数据] --> B[特征分组]
B --> C[计算模型数量]
C --> D[训练模型]
D --> E[性能评估]
E --> F[根据需求选择模型]
通过这种多模型系统,我们能够更有效地处理域名分类中的缺失值问题,提高分类的准确性和可靠性。同时,不同的模型选择策略可以满足不同用户的需求,为域名分类提供了更灵活的解决方案。
特征重要性分析
我们采用事后方法,通过散点图对特征重要性进行细粒度可视化。从511个模型中,选择仅缺失一个特征集的9个模型(不考虑词汇特征可能缺失的情况)。选取10,000个无缺失值的域名样本,先用完整模型分类,再用9个移除一个特征的模型分别分类。
-
DNS相关特征集(FS7)
:移除该特征集后,只有一小部分域名的输出概率受到影响,说明该特征集对分类结果影响不大。
-
WHOIS(FS2)、Alexa(FS8)和Hyperlinks(FS9)特征集
:移除这些特征集后,许多数据点的输出概率发生水平移动,表明这些特征集对系统输出有强烈影响。
然而,重要特征也可能被攻击者操纵,导致误分类。但由于我们的系统是基于多个特征进行全自动分类,对操纵(如域名老化)具有更强的抵抗力。
伦理考虑
在数据收集过程中,我们进行主动测量,包括通过HTTP请求进行浏览器模拟和主动DNS查找。为避免扫描基础设施过载,我们在浏览器模拟阶段将同时扫描的数量限制为20,这代表的流量可忽略不计,不会显著影响Web服务器。DNS扫描使用Google公共DNS解析器,并遵守官方文档规定的限制。
分类结果分析
我们将原型分类器应用于2021年1月至2022年9月从APWG、OpenPhish和PhishTank的URL黑名单中收集的218,806个未标记的唯一域名。
1.
总体分类结果
- 73%的钓鱼域名是出于恶意目的注册的,27%被分类为良性用户注册但已被入侵。如果域名是在托管层面而非DNS层面被入侵,TLD注册管理机构或注册商不应阻止这些域名。
2.
不同顶级域名(TLD)的分类情况
- 新通用TLD(如.top、.pharmacy、.xyz)中,近96%的黑名单钓鱼URL的域名可能是恶意注册的;传统通用TLD(如.com、.net、.org)为69%;国家代码TLD(如.br、.no、.jp)约为73%。
- 新通用TLD中恶意注册域名比例较高的一个可能解释是,与传统通用TLD相比,新通用TLD中相对较大比例的域名要么被停放,要么没有内容(DNS或HTTP错误),只有包含内容的域名才可能容易受到某些类型的攻击,因此新通用TLD中被入侵的域名比例较低。但这一假设需要未来的系统研究来验证。
这些结果可能受到黑名单偏差和攻击者短期选择趋势的影响。例如,某些黑名单可能更擅长检测恶意注册的域名,而另一些则更擅长检测被入侵的网站。此外,一些域名注册商可能会提供短期的低注册价格优惠,恶意行为者可能会利用这些优惠大规模注册域名,从而影响观察到的被入侵和恶意注册域名的百分比。
选定特征分析
我们分析了被分类为被入侵和恶意注册的域名在四个选定特征上的差异:
1.
域名中的流行术语
- 网络犯罪分子注册的域名通常包含特定关键词,如‘verification’、‘payment’、‘support’或品牌名称(如paypal - online - support.com)。最常用的关键词包括‘online’、‘secure’、‘bank’、‘support’、‘info’、‘login’和‘help’。而被入侵网站的域名很少包含这些特定关键词。
2.
使用的网络技术数量
- 被入侵的域名中,52.2%使用超过五种不同的(潜在易受攻击)技术、框架和插件来构建网站。相比之下,66.1%的恶意注册域名主页没有特定技术。许多恶意注册域名要么没有主页,要么重定向到其他域名,或者显示自定义错误消息,通常在URL路径或子域名级别提供钓鱼页面。
3.
域名年龄
- 域名年龄定义为域名注册时间与出现在黑名单上的时间之间的差异。93.6%的恶意注册域名的注册日期与黑名单日期之间的差异小于一年,其中11.3%的域名在注册当天就被列入黑名单。而约51.4%的被入侵域名在被列入黑名单前至少注册了六年。这可能是因为旧域名上的网站更有可能使用过时的技术或内容管理系统,更容易被入侵。
4.
TLS证书使用情况
虽然我们避免使用TLS证书特征,但也分析了被入侵和恶意注册域名所有者对其的使用情况。
以下是不同类型域名在选定特征上的差异总结表格:
| 特征 | 被入侵域名 | 恶意注册域名 |
| — | — | — |
| 流行术语 | 很少包含特定关键词 | 常包含特定关键词 |
| 网络技术数量 | 52.2%使用超五种技术 | 66.1%主页无特定技术 |
| 域名年龄 | 约51.4%注册至少六年 | 93.6%注册与黑名单日期差小于一年 |
通过对这些特征的分析,我们可以更深入地了解恶意注册和被入侵域名的特点,为域名分类和安全防护提供更有力的支持。同时,多模型系统的应用使得我们能够更准确地处理数据中的缺失值,提高分类的准确性和可靠性。在实际应用中,我们可以根据不同的需求选择合适的模型和特征,以实现更有效的域名分类和安全管理。
运营域名分类:多模型系统处理缺失值及性能评估
技术操作细节补充
在上述内容中,我们介绍了多模型系统处理域名分类的整体流程和结果。下面进一步详细说明一些关键的操作细节。
模型训练操作步骤
-
数据准备
- 收集自动生成的数据(GT1)和手动标记的数据(GT2)。确保GT1包含可能有缺失值的真实世界域名样本,GT2没有缺失值且能引入特殊情况。
- 对数据进行预处理,包括数据清洗、特征提取等操作,确保数据格式符合模型训练要求。
-
特征分组
- 根据缺失值率的实证评估,将特征分为10个不同的集合。每个集合中的特征要么全部可用,要么全部缺失。
- 例如,词汇特征集(FS1)中的特征不依赖于主动测量或外部第三方服务,系统接收输入URL后即可生成;而技术特征集(F11、F12)依赖于域名主页的HTML内容和HTTP头。
-
模型数量计算
- 对于可能存在缺失值的8个特征集(FS2 - FS10),使用公式 (\text{number of models} = \sum_{n = 0}^{8} \binom{9}{n}) 计算需要训练的模型数量,最终得到511个模型。
-
模型训练迭代
- 进行511次迭代,每次迭代代表移除一到八个选定特征集后的特征集子集。
- 对于完整模型,使用来自GT1和GT2的具有完整特征向量的记录进行训练。
- 对于移除了特征集的模型,使用GT1和GT2中剩余特征值全部存在的域名进行训练。
性能评估操作步骤
-
选择评估方法
- 采用分层K折交叉验证(SKCV),K = 10。由于数据集不平衡,SKCV能确保每个折保持与原始分布相同的类别比例,更准确地评估模型。
-
计算评估指标
- 使用常见指标如Matthews相关系数(MCC)、假阴性率(FNR)和假阳性率(FPR)等评估模型性能。
- 通过模型对测试数据的预测结果,计算各项指标的值。
-
分析评估结果
- 观察不同模型的评估指标,如完整模型的MCC为0.87,准确率为93.67%。
- 分析移除特定特征集对模型性能的影响,如移除WHOIS特征集的模型性能显著下降。
-
模型选择
- 根据不同的用例需求,选择合适的模型。
- 如果需要精确分类,可选择MCC ≥ 0.85且FNR ≤ 10%的模型,覆盖43.2%的未标记数据。
- 如果仅用于观察趋势,可选择MCC ≥ 0.7且FNR ≤ 20%的模型,覆盖80.6%的数据集。
多模型系统优势总结
- 处理缺失值能力强 :传统方法处理缺失值可能产生偏差,而多模型系统通过设计多个模型,每个模型针对特定特征子集的缺失值情况进行训练,能够有效处理各种缺失值情况,提高分类的准确性。
- 灵活性高 :可以根据不同的用例需求,选择不同性能指标的模型。调查人员可以根据自己的需求,在精确分类和高覆盖率之间进行权衡,满足多样化的应用场景。
- 抗操纵能力强 :系统基于多个特征进行全自动分类,对攻击者的操纵(如域名老化)具有更强的抵抗力,减少误分类的可能性。
未来研究方向展望
- 进一步优化模型 :虽然目前的多模型系统取得了较好的效果,但仍有优化的空间。可以尝试使用更先进的机器学习算法或深度学习模型,进一步提高分类的准确性和性能。
- 深入研究特征重要性 :虽然我们已经分析了部分特征的重要性,但对于特征之间的相互关系和影响还需要更深入的研究。可以通过特征工程和特征选择方法,挖掘更多有价值的特征,提高系统的性能。
- 验证新通用TLD假设 :对于新通用TLD中恶意注册域名比例较高的假设,需要进行系统的未来研究。可以通过收集更多的数据,进行对比分析,验证该假设的正确性。
- 考虑更多因素 :在实际应用中,域名分类可能受到更多因素的影响,如域名注册商的政策、网络环境等。未来的研究可以考虑这些因素,提高系统的实用性和适应性。
总结
通过本文的介绍,我们详细阐述了多模型系统在运营域名分类中的应用。从处理缺失值的方法、模型训练和性能评估,到特征重要性分析、伦理考虑和分类结果分析,我们全面展示了该系统的优势和有效性。同时,我们也分析了不同类型域名在选定特征上的差异,为域名分类和安全防护提供了有力的支持。在未来的研究中,我们可以进一步优化系统,提高分类的准确性和性能,为网络安全领域做出更大的贡献。
以下是多模型系统处理域名分类的整体流程图:
graph LR
A[数据收集] --> B[数据预处理]
B --> C[特征分组]
C --> D[模型数量计算]
D --> E[模型训练]
E --> F[性能评估]
F --> G{模型选择}
G -->|精确分类| H[选择高性能模型]
G -->|观察趋势| I[选择宽松要求模型]
H --> J[应用于域名分类]
I --> J
通过这个流程图,我们可以更清晰地看到多模型系统处理域名分类的整个过程,从数据收集到最终的分类应用,每个环节都紧密相连,共同构成了一个完整的系统。希望本文能够为相关领域的研究和实践提供有价值的参考。
多模型系统处理域名分类缺失值及评估
超级会员免费看
68

被折叠的 条评论
为什么被折叠?



