钓鱼网站url的识别

最新推荐文章于 2025-04-03 22:00:24 发布

原创最新推荐文章于 2025-04-03 22:00:24 发布 · 2.4k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

昨天偶遇个钓鱼网站的数据集，提供了很多url的特征，就好奇这东西有多难识别，于是简单地做了一下，发现随机森林就能跑到93%。
其中最重要的特征是网站有没有https头，18个特征里能占0.3。

给新手们附上链接和实验过程：
1.下载数据集（需要注册）
2.因为test.csv没标签，所以从train里抽一点出来，可以37开可以55开。
3.数据里有缺失值，因为后面要用lasso做特征选择，所以把数据中的0改成-1，把NaN改成0.
4.删了几个占比低的特征后，用随机森林跑出了0.94的分数。
5.但因为我把NaN改成了0，而NaN是无意义的， 0却是介于-1到1之间，在计算时有了分界的意义，所以随机森林只能作为参考。
6.最后用keras搭的三层线性模型，只有最后一层用了sigmoid，得到90.6%的分数。

总结：没啥总结的，数据太少特征很强，很难有普适性，实际中只靠url识别是很不靠谱的。我了解到现在会生成网页的图片，并比对结构代码，因为钓鱼网站虽然能模仿网页，但代码肯定不一致。有些网站会加载一堆奇怪的插件，有些会有很多弹窗，有些会写死逻辑让你跳不出去，这些特征都得懂前端的人来配合获取了。

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。