机器学习算法在网络钓鱼检测与危机推文分类中的应用
1. 网络钓鱼检测模型结果
在网络安全领域,准确识别网络钓鱼网站至关重要。研究采用了多种机器学习算法进行网络钓鱼检测,以下是各模型的详细结果。
1.1 决策树模型
决策树由 ID3 学习器生成,包含 365 个节点和 189 个叶子节点。该算法表明,套接字安全层的最终状态是判断网页是否为网络钓鱼的关键因素。其他重要指标还包括 URL 中使用的锚点、网站流量超过平均 10,000 排名、元标签、脚本标签和链接标签中的链接,以及指向网页的链接等。具体来说,没有链接指向但 URL 带有“–”前缀或后缀,或包含“@”的网页,有 92% 的可能性是网络钓鱼网站。
决策树模型的混淆矩阵如下:
| 实际情况 \ 预测情况 | 钓鱼网站 | 合法网站 | 总计 |
| — | — | — | — |
| 钓鱼网站 | 4549 | 349 | 4898 |
| 合法网站 | 200 | 5959 | 637 |
| 总计 | 4749 | 6306 | 135 |
1.2 朴素贝叶斯模型
朴素贝叶斯模型认为,URL 前缀中使用“–”是网络钓鱼活动的最主要指标。因为合法网站通常不会使用该符号,其存在可能会让用户误以为网站合法,从而诱使用户分享敏感信息。此外,URL 锚点中包含“#”、“#Content”、“JavaScript::void(0)”和“#skip”且占比超过 70% 的,也被判定为网络钓鱼网站。同时,该模型指出,在域名中添加 HTTPS 令牌的 URL,有 48% 的可能性是网络钓鱼网站。这可能是由于某些浏览器因脚本行
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



