基于python sqlite3将KDD-99数据集插入数据库中

hello,又是我,哈哈
转载记得标明出处
http://blog.youkuaiyun.com/isinstance/article/details/51328894

今天来聊聊怎样使用python中的sqlite3模块将KDD-99数据集插入数据库中

sqlite3和sql语句我就不赘述了

直接进入正文

core值

因为插入数据库操作的IO速率一直很慢很慢,所有这里我实现了通过一个量core控制插入的线程数然后,core值也是生成的数据库个数.core在代码的42行修改.你也可以修改为1,就是一个线程一个数据库,也可以32,那就是32个线程和拆分生成32个数据库.但是提醒一下,一个线程处理kdd-99-10-precent也是很慢低...

然后思想啥的理论的我就不说了

自己理解呗最后贴上代码github位置

传送门

这里写图片描述

这就是我开了16个core的输出

然后这里有sqliteman打开显示如下

这里写图片描述

可以看出已经插进去了

还是那句话,对代码有好的意见或者啥的,可以联系我,邮件联系.然后,说句实话,在大数据分析里使用数据库是个不好的想法,用spark也好,hadoop也好,还是csv文件来的顺畅一些.因为光插入这些数据都得两天...没错..还不如直接csv读取.虽说从数据库中读取数据很快,而且sqlite也是标称是与fopen()竞争的,但是插入的花销太大.所以后来我对kdd-99数据集的大数据分析是建立在csv文件的基础上的.

评论 25
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值