钓鱼网站检测 repo复现

本文作者分享了复现钓鱼网站检测论文的过程,使用了一个包含30个特征的数据集,并尝试了随机森林分类器。讨论了数据集中的一些特征,如网址的异常格式,并计划进一步研究不同检测方法和特征的有效性,决定是专注于钓鱼网站还是钓鱼邮件的检测。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

写在前面

纠结要起个什么样的文章标题…这篇帖子不会写的太硬核,就是想稍微理一下我自己的思路。
最近看了入侵检测和钓鱼检测的论文。入侵检测给我的感觉是系统太大了,而且从199几年就开始用机器学习做了??我的天哪…加上听另外一个同学说这个方向都被做烂了,觉得很有道理。看了几天论文之后,在打算复现论文时候因为没有找到打标签的数据集,就顺理成章地先把这个方向放下了。草率如我:)
钓鱼网站/邮件检测没看多少,emm…不过至少这个方向应该是比入侵检测做的人少的…而且感觉上这个小一点,看论文里说应该是数据集是比较好找的,而且不会像入侵检测的数据集那么老,都是上个世纪的??

Github上找到一个仓库,是论文的复现(虽然那个论文质量不是很好?),就大概看了一下,简单复现了一下。
https://github.com/rohitnaik246/Malicious-Web-Content-Detection-Using-Machine-Learning

论文内容

论文用了UCI中的钓鱼网站数据集。数据集是以arff的格式给出来的,在文件里介绍了涉及到的字段。
使用的分类器是随机森林。在数据集给出的特征中选择了部分(手动)。最后论文的结果是以Chrome扩展的形式展现的。就是当用户访问一个网址时候,会通过扩展来检查一下,这个网址的特征是通过repo中的feature_extraction.py文件提取的。

整体思路很简单,因为没有真正用机器学习写过程序,所以就复现一下感受一波。

# tes
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值