机器学习在网络安全中的应用
1. 钓鱼页面检测
钓鱼页面检测是保障网络安全的重要环节。常见用于检测钓鱼页面的特征包括:
- 全局和国家 PageRank :反映页面在网络中的重要性和权威性。
- 在 Alexa 前 100 万网站中的排名 :体现网站的受欢迎程度和流量情况。
- 域名的日、周、月访问量估计 :了解网站的访问热度。
- 每次访问的平均页面浏览量 :反映用户在页面上的参与度。
- 平均访问时长 :体现用户对页面的兴趣程度。
- 各国的网络流量份额 :了解网站的受众分布。
- 来自社交网络的引用数量 :反映页面在社交网络中的传播程度。
- 是否存在类似网站 :判断页面的独特性和真实性。
此外,还有基于页面内容的特征,如页面标题、元标签、隐藏文本、正文文本、图像、视频等。然而,这些特征存在一定局限性。例如,免费网络托管服务上的网页可能缺乏合法网页的一些相关特征,如 PageRank、域名年龄、SSL 证书和 Google 索引。黑客还可以利用黑帽 SEO 技术,如关键词堆砌、链接垃圾邮件等,提升钓鱼页面在搜索引擎中的排名,或使用第三方工具增加网站流量,从而部分规避基于 URL 和域名的检测机制。
钓鱼页面检测是一个有监督的分类问题,需要有标记的数据,包括钓鱼页面和合法页面的样本。常用的训练数据集有 Ph
超级会员免费看
订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



