对抗性采样攻击对网络钓鱼检测的影响
一、引言
- 动机
网络钓鱼是指攻击者通过伪装成可信赖的实体,在电子通信中获取用户的敏感信息,如用户名、密码和信用卡详情等。自1987年该技术被提出,1995年首次有相关记录以来,网络钓鱼攻击在众多防御措施下仍极具韧性。2007年报告的独特攻击有32.8万次,到2017年这一数字几乎翻了两番。由于网络钓鱼作为一种社会工程攻击,仅靠教育终端用户无法解决,因此自动检测技术至关重要。像URL黑名单、关键词过滤、IP地址过滤等防御措施已不再有效,而基于机器学习的技术似乎是一个有前景的方向。 - 问题陈述
现有的基于机器学习的网络钓鱼检测方法,多强调特征定义或增强统计学习模型来区分钓鱼和合法网站。但这些方法有一个关键假设,即训练数据收集过程与攻击者的行为无关。然而在实际的对抗环境中,攻击者会生成噪声数据样本或操纵现有样本的特征来创建新的攻击样本。噪声数据样本会导致分类模型准确率降低,而特征操纵则更危险,攻击者可以轻松绕过现有分类器。 - 提出的方法和主要贡献
收集了四个公开可用的数据集,应用对抗性采样技术评估训练模型对人工生成的对抗性样本的鲁棒性。主要贡献如下:- 对当前防御和检测机制的威胁进行建模,解释攻击者的访问权限和知识。
- 定义网络钓鱼实例的脆弱性级别,量化攻击者的努力,并描述操纵网络钓鱼实例和创建新样本的方法。
- 调查了一系列网络钓鱼检测技术,重点是基于机器学习的方法,展示了一些知名机器学习方法的弱点。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



