基于混合算法的恶意URL检测

原创于 2025-10-11 09:03:49 发布 · 432 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#恶意URL #特征选择 #模糊逻辑 #萤火虫算法 #布谷鸟搜索

部署运行你感兴趣的模型镜像

一种利用数据挖掘算法从可疑URL中进行识别的高效入侵检测系统

摘要

本文的主要目标是利用最优模糊逻辑系统设计针对可疑URL的入侵检测。该系统主要由三个模块组成：1）特征提取；2）特征选择；3）分类。首先，我们从数据集中提取出共包含30个特征的四类特征。其中，使用萤火虫与布谷鸟搜索算法的混合（HFFCS）来选择重要特征。然后，利用模糊逻辑分类器对选定的特征进行训练，并计算模糊逻辑评分。最后在测试阶段，模糊逻辑分类器根据模糊评分检测恶意URL。本研究使用了两种类型的数据库：URL信誉数据集和钓鱼网站数据集。实验结果表明，所提出的恶意URL检测方法优于其他现有方法。

关键词 ：恶意；统一资源定位符；URL；检测；萤火虫；布谷鸟搜索；模糊逻辑分类器；FLC；网站检测。

1 引言

互联网和本地系统框架的快速发展在过去十年中彻底改变了计算世界。高度互联的计算环境也为入侵者和黑客提供了新的手段以实现其恶意目的。由于入侵者未经授权访问而导致的暂时性或永久性损害代价，促使人们越来越广泛地实施各种系统来监控其网络中的数据流。这些系统通常被称为基于可疑统一资源定位符（URL）的恶意网站检测或入侵检测系统（IDS）（雷迪，2013）。此外，入侵识别方案可分为两类：误用和异常入侵检测（阿南德和帕特尔，2012）。误用指的是利用系统已知漏洞的已知攻击。异常则指一般情况下的异常行为，可能表明发生了入侵。如果观察到的用户行为偏离了正常行为，则认为发生了异常（瑞安等，1998）。在最近几年中，云计算已从一个有前景的商业概念发展成为IT行业中增长最快的领域之一。然而，随着越来越多个人和组织的数据被存储在云中，人们开始关注这一环境究竟有多安全（苏巴辛宁和卡维塔，2011）。尽管用于敏感应用的大多数计算机都会收集审计轨迹，但这些审计轨迹主要用于性能评估或记账目的，在识别入侵方面提供的帮助十分有限（朗特，2013）。

传统的保障系统，例如客户端验证、信息加密、避免编程错误和防火墙，被用作计算机安全的第一道防线（佩达巴查加里，2007）。异常识别是一种通过首先学习正常行为特征来识别中断的方法。然后系统被设计用于检测任何偏离正常行为的情况（德普伦和托帕拉尔，2005）。除了加密和防火墙等其他防止中断的措施外，入侵检测系统（IDS）是用于保护计算机系统的另一种重要技术（金和本特利，2007）。然而，这些恶意网站检测框架并未在应用层工作，而应用层有可能为特定目标应用提供更精确的检测。因此，专门为数据库设计的中断识别模型和策略正变得至关重要（李和刘，2002）。此外，恶意站点发现框架主要集中在实时或接近实时地识别可能发生的时间、记录相关数据、尝试阻止这些事件并向安全管理员报告；另一些则在一定延迟后处理审计数据（非实时）。后一种方法反过来会延长检测时间。

网络已成为支持各种犯罪活动的平台，例如通过垃圾邮件推广的商品（如假冒手表或药品）、金融欺诈（例如通过钓鱼或419类骗局）以及传播恶意产品的渠道（如所谓的“路过式下载”）。尽管这些计划背后的商业动机可能各不相同，但它们的共同点是需要无知的用户访问其目标地址。这些访问可能由电子邮件、网页列表条目或其他网页的链接驱动，但都要求用户采取某些操作，例如点击，以确定目标URL（马等人，2009）。其中一种最广泛使用的方法是基于中断识别的主框架的一部分是利用Denning的轮廓模型进行的基于规则的分析检查。软计算是描述一组优化方法的总称。其处理策略包括模糊逻辑（FL）（Shanmugavadivu，2011）、人工神经网络（ANNs）（Devikrishna和Ramakrishna，2013）、概率推理（PR）（Gowadia等，2005）以及遗传算法（GAs）（Hassan，2013）。为了提高Web和云服务的接受度，云服务提供商（CSPs）必须首先建立信任与安全，以减轻大量客户的担忧。一个健全的云生态系统应杜绝误用、暴力、欺诈、黑客攻击、病毒、后悔、色情、垃圾信息以及安全和版权侵权行为（Hwang和Li，2010）。

在本文中，我们阐述了使用最优FL系统对可疑URL进行入侵检测的方法。该系统由三个模块组成：
1. 特征提取
2. 特征选择
3. 分类

首先，我们从URL中提取四种类型的特征（基于域名的特征、基于HTML和JavaScript的特征、基于异常的特征以及基于地址栏的特征）。然后，基于混合FFCS算法选择重要特征。接着，将降维后的特征输入到FL系统中。模糊分类器基于模糊规则的概念，用于对恶意与非恶意URL进行分类。最后，在测试阶段检测恶意与非恶意URL。本研究的主要贡献体现在任务调度过程中的以下方面，

提出了一种专门用于入侵检测的HFFCS方法，该方法具有易于实现和快速收敛的优点，使得这种入侵检测方法能够在比单独的萤火虫算法和布谷鸟搜索算法更短的计算时间内获得理想或较优的解。
为了解决入侵检测中的非线性问题并提高收敛速度，本文将萤火虫算法与布谷鸟搜索算法相结合。

本文的其余部分组织如下：第2节介绍了恶意检测技术领域一些文献工作的简要综述。第3节阐述了研究背景。第4节详细描述了提出的方法。第5节提供了实验结果和性能评估的讨论。最后，第6节总结了结论。

2 相关工作综述

近年来，由于入侵检测广泛应用于保障网络安全，因此在研究人员中受到了极大关注。本文介绍了一些恶意网站检测技术：Zarrabi和Zarrabi（2012）提出了在云环境中作为服务的IDS，以保护客户端系统。该方法利用系统流量中的若干属性，使其能够从客户端系统中提取所需的信息用于评估。该架构通过允许客户同时接入多种IDSCs，融合不同产品的功能，从而实现更可靠的入侵检测系统配置，具有良好的灵活性。远程环境下的客户端系统不同部分可由同一基础设施进行监控，从而简化了动态环境中入侵检测系统配置的组织管理。通过实施所提出架构的改进版本，证明该方案在局域网中是切实可行的。此外，尤和金（2014）阐述了利用误用和异常检测的两阶段恶意网页检测方案。在第一阶段，基于C4.5决策树算法构建滥用识别模型，用于识别已知恶意网站页面。在第二阶段，采用一类支持向量机的异常检测模型来识别新型恶意网页。

本质上，无线传感器网络是极具前景的技术之一，其应用范围从医疗服务延伸到战略军事领域。布通等人（2013）对针对无线传感器网络（WSNs）所提出的入侵检测系统（IDS）的最新研究进行了综述，介绍了这些入侵检测系统的分类、设计细节和需求。此外，还简要回顾了为移动自组织网络（MANETs）设计的入侵检测系统，并讨论了这些框架在无线传感器网络中的适用性。第三，分析了针对无线传感器网络提出的入侵检测系统，并在一个对比图表中突出了它们的不同特征，随后给出了适用于无线传感器网络的入侵检测系统的相关评述。最后，提供了可能适用于无线传感器网络的入侵检测系统的设计准则。该综述以强调该领域的开放性研究问题作为结束。此外，Mabzool和Lighvan（2014）阐明了基于网络使用挖掘的入侵检测框架。此外，Rajitha和VijayaLakshmi（2016）解释了多种恶意检测方法。

此外，Ravale等人（2015）阐明了基于特征选择的混合异常入侵检测系统，该系统采用K均值聚类算法和RBF核函数。中断识别中的一项基本困难是误判、漏检以及缺乏对攻击的持续响应。不同的数据挖掘系统，如聚类、分类和关联规则发现，正被用于入侵检测。所提出的混合方法结合了数据挖掘方法，例如K均值聚类算法和支持向量机的RBF核函数作为分类模块。该方法的主要目的是减少与每个数据点相关的特征数量。

针对有效的入侵检测系统（IDS）的重要性，库马尔和莫汉（2008）提出了一种结合三种方法的混合方案，其中包含两种机器学习准则。该方案采用了K均值聚类、模糊逻辑（FL）和神经网络策略，构建了一个高效的入侵检测框架。这种方法展示了将K均值‐模糊‐神经网络策略相结合的优势，从而消除了此类事件中人为专家干预带来的不必要的干扰。为了提高入侵检测系统的准确性和效率，Gaddam等人（2007）提出了“K‐Means+ID3”方法，该方法结合了K‐means聚类与ID3决策树学习策略，用于识别计算机系统、动态电子电路以及机械质量‐弹簧系统中的异常与正常行为。

3 研究背景

3.1 布谷鸟搜索算法

布谷鸟搜索增强技术是一种自然启发式元启发算法，该算法基于某些布谷鸟种类的巢寄生行为，并结合了一些鸟类和果蝇的飞行传播方式（杨和Deb，2009，2010）。这种初始的布谷鸟具有独特的特性，它们会将卵产在其他寄主鸟巢中。那些与寄主鸟卵相似的卵能够存活并成长为成熟的布谷鸟。而被寄主鸟识别出的异样卵则会被销毁。存活下来的卵揭示了该区域鸟巢的适应性程度。在卵存活数量越多的区域，所获得的收益越高，布谷鸟算法将在该区域进行优化。CS基于三个重要规则。

每只杜鹃一次产一枚卵，并将其随机放入一个巢穴中。
具有最显著卵（解）特性的最佳鸟巢将延续到下一代
可访问的鸟巢数量是固定的，且宿主以概率Pa ∈ (0, 1)发现外来卵。在这种情况下，宿主鸟类会将卵扔出，或遗弃该巢穴并在其他区域建造新的巢穴。

表1 布谷鸟搜索算法的伪代码

一种基于数据挖掘算法识别可疑URL的高效入侵检测系统
目标函数 F(s) = s = (s1, s2,…, sd)
生成包含 n 个宿主鸟巢的初始种群；
当 (t < 最大代数) 或 (停止准则)
通过莱维飞行随机获取一只布谷鸟
评估其适应度 Fi
在 n 个巢穴中随机选择一个（例如，j）
If Fi > Fj
将 j 替换为新解；
结束 if
一个分数概率（Pa）较差的鸟巢被废弃，并建造新的鸟巢；
保留最佳解/鸟巢；
对解/鸟巢进行排序，并找到当前最优；
将当前最优解传递给下一代；
结束 while

与简单任意行走行为相比，莱维飞行行为可用于提高CS（布谷鸟搜索）的执行效率。

以下公式可在为第ith只布谷鸟生成新解si(t + 1)时描述莱维飞行行为（Roy和Chaudhuri，2013）。

$$
s_i(t + 1) = s_i(t) + \alpha \oplus Levy(\lambda)
\tag{1}
$$

其中α > 0是必须与感兴趣问题尺度相关的最终大小，而乘积⊕表示逐元素相乘。

描述莱维飞行行为（其中步长符合概率分布）的公式为：

$$
Levy \sim u = t^{-\lambda}
\tag{2}
$$

根据该方程，布谷鸟的连续跳跃或步进主要形成一个随机行走过程，对应于具有重尾的幂律步长分布。布谷鸟搜索算法的伪代码如表1所示。

3.2 萤火虫算法

在剑桥大学（杨，2008年），杨于2007年底和2008年首次提出了基于萤火虫发光模式和行为的萤火虫算法（FA）。实际上，萤火虫算法采用了以下三条理想化规则：

萤火虫是无性别的，因此一只萤火虫会被其他萤火虫吸引，而不考虑其性别。
魅力与亮度成正比，且两者都随着距离的增加而减弱。因此，对于任意两只闪烁的萤火虫，较暗的一只将向较亮的一只移动。如果没有比某只特定萤火虫更亮的萤火虫，则它将随机移动。
根据目标函数的景观，可以确定萤火虫的亮度。

表2 萤火虫算法的伪代码

一种基于数据挖掘算法识别可疑URL的高效入侵检测系统
目标函数：f(S)，S = (s1, s2,…, sd)；
生成萤火虫的初始种群 Si(i = 1, 2, 3, …, n);
将光强 I 表达为与 f(S) 相关联的公式
定义吸收系数 γ
当（t < 最大代数）
对于 i = 1：n（所有 n 只萤火虫）
对于 j = 1：n（n 只萤火虫）
如果 (Ij > Ii),
将萤火虫 i 移向 j；
结束 if
通过 exp(–γr) 随距离 r 变化吸引力；
评估新解并更新光强；
结束 if j
结束 if i
对萤火虫进行排序并找到当前最优；
结束 while
后处理结果并进行可视化；
end

由于萤火虫的吸引力与其被附近萤火虫所见的光强成正比，我们目前可以用距离 D 来描述吸引力的变化 βat。

$$
\beta_{at} = \beta_0 e^{-\gamma D^2}
\tag{3}
$$

其中 β₀ 是 D = 0 处的吸引力。萤火虫i的移动由其被另一只更具吸引力（更亮）的萤火虫j所吸引的程度决定

$$
S_i^{t+1} = S_i^t + \beta_0 e^{-\gamma r_{ij}^2}(S_j^t - S_i^t) + \sigma_t \mu_i^t
\tag{4}
$$

在上述方程中，$ S_i^{t+1} $ 表示更新后的第ith个解，$ S_i^t $ 表示当前的第ith个解，而 $ S_j^t $ 表示第jth个解，即更亮的萤火虫。此外，σt表示随机化参数，μit是在时间t时来自高斯分布的随机数向量；β₀ 和 γ 是与萤火虫魅力相关的不变量。

4 提出的方法

本文的主要意图是利用最优FL系统对可疑URL进行入侵检测和识别。入侵检测主要用于互联网服务提供商（ISP）的安全。网站的详细设计检测系统包括三个主要阶段：
1. 特征提取
2. 基于混合FF‐CS算法的特征选择
3. 基于FL系统的检测

首先，将输入数据集（URL）引入系统，然后从每个URL中提取有用特征。接着，应用基于混合FF‐CS算法的属性约简方法，以选择属性的最优子集，从而降低计算负担并提升FL系统的性能。获得的包含属性子集的数据集被划分为两个子集：训练数据集和测试数据集。训练数据集用于构建FL系统，而测试数据集用于测试所得到的FL系统。各模块的详细信息将在下一小节中讨论。所提出的方法的整体架构如图1所示。

示意图0

4.1 特征提取

特征提取是恶意网站检测中的一个重要步骤。特征提取的目标是从URL中提取有意义的特征，以便根据其来源进行分类。在本研究中，我们提取了四种类型的特征，包括基于域名的特征、基于HTML和JavaScript的特征、基于异常的特征以及基于地址栏的特征。基于这四种类型的特征，我们从数据集中存在的完整URL中提取了30个特征。

4.1.1 基于域名的特征

基于域名的特征与域名相关。在此，我们使用了十二种特征，具体解释如下：

4.1.1.1 使用IP地址

当URL中使用IP地址代替域名时，消费者可以确信有人试图窃取他们的个人数据。
如果域名部分包含IP地址，则为钓鱼条件；否则为合法的
→ ⎧
→ ⎩

4.1.1.2 长URL用于隐藏可疑部分

当钓鱼者使用长URL时，消费者可以确定有人试图窃取他们的个人数据。长URL用于遮蔽地址栏中的不明确部分。
If URL length < 54 features → Legitimate Condition:
Else if URL length ≥ 54 and ≤ 75 feature → Suspicious
Otherwise feature → Phishing

4.1.1.3 使用URL缩短服务“短网址”

URL缩短是万维网中的一种方法，通过该方法可以将一个URL转换为较短的形式，同时仍然能够访问目标网页。这一过程通过在较短的域名上使用HTTP重定向来实现，从而链接到具有长URL的网页。
Tiny URL → Phishing Condition: Otherwise Legitimate

4.1.1.4 包含‘@’符号的URL

借助URL中的‘@’符号，浏览器不会考虑‘@’符号之后的所有内容，而实际地址通常跟在‘@’符号之后。
URL having @ symbol → Phishing Condition: Otherwise Legitimate

4.1.1.5 使用‘//’进行重定向

URL路径中存在‘//’意味着用户将被重定向到另一个网站。我们发现，如果URL以‘HTTP’开头，则‘//’应出现在第6个位置；但如果URL使用‘HTTPS’，则‘//’应出现在第7个位置。
URL中’//’最后一次出现的位置 > 7 → Phishing Condition: Otherwise Legitimate

4.1.1.6 在域名中添加以(-)分隔的前缀或后缀

连字符不常用于合法的URL中。钓鱼者有能力在域名前后添加使用(-)分隔的前缀或后缀，使用户误以为正在访问一个认证网页。
域名部分包含(-)符号 → Phishing Condition: Otherwise Legitimate

4.1.1.7 子域名和多级子域名

域名可能包含国家代码顶级域名（ccTLD），在本例中为“uk”。“ac.uk”组合中，“ac”部分是“academic”（学术）的缩写，称为二级域名（SLD），而“hud”是该域名的真实名称。例如，用户登录系统（ULS）为 http://www.hud.ac.uk/students/。
域名中的点 = 1 → 合法条件
域名中的点 = 2 → 可疑，否则为钓鱼

4.1.1.8 HTTPS（带安全套接层的超文本传输协议）

HTTPS的存在对于提供网站合法性印象至关重要；然而，这显然并不足够。
使用HTTPS且发证机构受信任且证书有效期 ≥ 1年 → 合法条件
使用HTTPS但发证机构不受信任 → 可疑，否则为钓鱼

4.1.1.9 域名注册时长

基于钓鱼网站存在的时间有限这一事实，我们认为可信的域名通常会提前多年进行定期付费。我们发现，最长使用的欺诈性域名仅被利用了一年时间。
Domain expires on ≤ 1 year → Phishing Condition: Otherwise Legitimate

4.1.1.10 网站图标

网站图标（Favicon）是与特定网页相关的图形图像（图标）。一些可用的客户端软件，如图形浏览器和新闻阅读器，会在地址栏中显示网站图标，以直观地提示网站完整性。当网站图标从地址栏中显示的域名以外的其他域名加载时，该网页将被视为钓鱼尝试。
Favicon loaded from external domain → Phishing Condition: Otherwise Legitimate

4.1.1.11 使用非标准端口

此功能有助于验证特定服务（例如HTTP）在特定服务器上的运行状态是开启还是关闭。为了控制入侵，最好仅打开所需的端口。许多防火墙、代理以及网络地址转换（NAT）服务器默认会阻止全部或大部分端口，仅开放选定的端口。当所有端口都处于开放状态时，钓鱼者可以使用几乎所有所需的服务，从而导致用户数据面临风险。
Port# is of the preferred status → Phishing Condition: Otherwise Legitimate

4.1.1.12 URL的域名部分中是否存在‘HTTPS’令牌

钓鱼者可能会在URL的域名部分添加“HTTPS”标记以欺骗消费者。
Using HTTP token in domain part of the URL → Phishing Condition: Otherwise Legitimate

4.1.2 基于HTML和JavaScript的特征

4.1.2.1 请求URL

请求URL检查假设网页中包含的外部对象（如视频、图像和声音）来自不同的域名。在合法的网页中，网页地址和嵌入网页中的大多数对象共享相似的域名。
% of request URL < 22% → Legitimate
Condition: % of request URL ≥ 22% and ≤ 61% → Suspicious
Otherwise Feature → Phishing

4.1.2.2 针对锚点的URL

锚点是通过标签帮助定义的明确元素。此特征将被立即视为“请求URL”。
% of URL of anchor < 31% → Legitimate
Condition: % of URL of anchor ≥ 31% and ≤ 67% → Suspicious
Otherwise → Phishing

4.1.2.3 、

您可能感兴趣的与本文相关的镜像

Langchain-Chatchat

AI应用

Langchain

Langchain-Chatchat 是一个基于 ChatGLM 等大语言模型和 Langchain 应用框架实现的开源项目，旨在构建一个可以离线部署的本地知识库问答系统。它通过检索增强生成 (RAG) 的方法，让用户能够以自然语言与本地文件、数据库或搜索引擎进行交互，并支持多种大模型和向量数据库的集成，以及提供 WebUI 和 API 服务