写在前面
纠结要起个什么样的文章标题…这篇帖子不会写的太硬核,就是想稍微理一下我自己的思路。
最近看了入侵检测和钓鱼检测的论文。入侵检测给我的感觉是系统太大了,而且从199几年就开始用机器学习做了??我的天哪…加上听另外一个同学说这个方向都被做烂了,觉得很有道理。看了几天论文之后,在打算复现论文时候因为没有找到打标签的数据集,就顺理成章地先把这个方向放下了。草率如我:)
钓鱼网站/邮件检测没看多少,emm…不过至少这个方向应该是比入侵检测做的人少的…而且感觉上这个小一点,看论文里说应该是数据集是比较好找的,而且不会像入侵检测的数据集那么老,都是上个世纪的??
在Github
上找到一个仓库,是论文的复现(虽然那个论文质量不是很好?),就大概看了一下,简单复现了一下。
https://github.com/rohitnaik246/Malicious-Web-Content-Detection-Using-Machine-Learning
论文内容
论文用了UCI
中的钓鱼网站数据集。数据集是以arff
的格式给出来的,在文件里介绍了涉及到的字段。
使用的分类器是随机森林。在数据集给出的特征中选择了部分(手动)。最后论文的结果是以Chrome
扩展的形式展现的。就是当用户访问一个网址时候,会通过扩展来检查一下,这个网址的特征是通过repo
中的feature_extraction.py
文件提取的。
整体思路很简单,因为没有真正用机器学习写过程序,所以就复现一下感受一波。
# tes