分层自适应概率方法:高效应对网络钓鱼攻击
1. 数据收集与实验设置
1.1 合法语料库
合法网页语料库于4月2日后下载,涵盖多种来源,具体信息如下表所示:
| 来源 | 规模 | 爬取方法 |
| — | — | — |
| Alexa.com排名前100的英文网站 | 958 | 对主页进行有限深度爬取 |
| 各类登录页面 | 831 | 使用Google的“inurl”运算符,搜索“signin”等关键词 |
| 3Sharp来源 | 87 | 下载下载时仍存在的优质网页 |
| Yahoo目录中的通用银行类别 | 878 | 在同一域名内对银行主页进行不同步数的爬取 |
| Yahoo目录的其他类别 | 330 | 与通用银行类别爬取方式相同 |
| 最常见的网络钓鱼目标 | 69 | 保存这些网站的登录页面 |
| 开放目录项目 | 183 | 下载页面排名为零的“最不受欢迎”页面 |
1.2 实验变量定义
为方便实验,定义了以下自由变量:
| 变量 | 解释 |
| — | — |
| G | 时间粒度 |
| L | 滑动窗口长度 |
| W | 白名单 |
| n | n - 元语法 |
| r | 相似度 |
| t | 相似度阈值 |
1.3 测试方法
为模拟更真实场景,所有实验按时间顺序处理数据。评估真阳性率(TP)时,将长度为L的滑动窗口沿时间线逐步移动,对每个时间点Ti的网页应用检测算法,该算法基于时间标签落在窗口[
超级会员免费看
订阅专栏 解锁全文
6

被折叠的 条评论
为什么被折叠?



