python
文章平均质量分 72
geellin
汲取机器学习与算法新鲜血液的渣渣
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python大规模数据处理技巧之三:数据库操作篇
这篇文章总结基于python的数据库操作。将数据库的操作与python中的pandas模块结合起来,能够实现高效的数据处理与快速的数据读取。1、利用pandas写入MySQL数据库1.1 dataframe输出到mysql示例过程:以下是将一个csv数据文件写入数据库的过程: 使用MySQLdb连接(MySQLdb的安装可见:python包的各种安装问题汇总),使用pandas输出原创 2016-06-29 09:40:11 · 2983 阅读 · 0 评论 -
python编译错误的积累
1、代码编辑时的常见错误: 1、unindent does not match any outer indentation level 有的语句的缩进不是用tab,而是直接用了几个空格代替编译时出了问题 2、syntaxError:Non-ASCII character ‘\xe8’ in file…: 在文件的开头添加下面的两行 #!/usr/bin/env p原创 2016-04-09 22:36:16 · 852 阅读 · 0 评论 -
python包的各种安装问题汇总
1、Linux 下安装python软件包(pip、nose、virtualenv、distribute ): 参考文献: http://blog.youkuaiyun.com/my2010sam/article/details/18315687 http://blog.youkuaiyun.com/ab198604/article/details/8681851 linux下安装setupt原创 2016-06-15 17:26:05 · 1027 阅读 · 0 评论 -
python大规模数据处理技巧之一:数据常用操作
面对读取上G的数据,python不能像做简单代码验证那样随意,必须考虑到相应的代码的实现形式将对效率的影响。如下所示,对pandas对象的行计数实现方式不同,运行的效率差别非常大。虽然时间看起来都微不足道,但一旦运行次数达到百万级别时,其运行时间就根本不可能忽略不计了:故接下来的几个文章将会整理下渣渣在关于在大规模数据实践上遇到的一些问题,并且给予一些技巧的总结,有错误之处望指正。一、外部csv文件原创 2016-06-16 09:14:57 · 32678 阅读 · 0 评论 -
python大规模数据处理技巧之二:机器学习中常用操作
1、 数据预处理随机化操作机器学习中的常用随机化操作中可以使用random包做不重复随机数生成,以此生成的随机数作为数据集下标去截取相应数据集。下面这句简单有效的代码可以帮助实现基本所有的随机化预处理操作。import randomsamp_ids = [i for i in sorted(random.sample(range(nItem),原创 2016-06-21 10:28:33 · 4634 阅读 · 0 评论
分享