单台计算机处理大数据:恶意URL检测与数据库推荐系统构建
在当今数字化时代,数据量呈爆炸式增长,如何在单台计算机上高效处理大数据成为了一个关键问题。本文将通过两个实际案例,详细介绍处理大数据的方法和技巧,包括恶意URL检测和数据库内推荐系统的构建。
案例一:预测恶意URL
步骤1:定义研究目标
项目的目标是检测某些URL是否可以信任。由于数据量巨大,我们希望以一种节省内存的方式完成这个任务。
步骤2:获取URL数据
首先,从 http://sysnet.ucsd.edu/projects/url/#datasets 下载数据,并将其放在一个文件夹中。选择SVMLight格式的数据,这种格式是基于文本的,每行代表一个观察值,并且会省略零值以节省空间。
以下是尝试读取120个文件中的一个并创建普通矩阵时的代码:
import glob
from sklearn.datasets import load_svmlight_file
files = glob.glob('C:\Users\Gebruiker\Downloads\url_svmlight.tar\url_svmlight\*.svm')
files = glob.glob('C:\Users\Gebruiker\Downloads\url_svmlight\url_svmlight\*.svm')
print "there
超级会员免费看
订阅专栏 解锁全文
2385

被折叠的 条评论
为什么被折叠?



