
数据处理
文章平均质量分 57
扎克伯哥
彩笔
展开
-
几个pandas数据处理中的常用操作
记几个常用的函数,具体用法去官网查啦import的惯例:import pandas as pdfrom pandas import Series,DataFrame显示一些数字特征:df.describe()#显示很多,均值,标准差,分位数等等df.quantile(0.75)#显示3/4分位数df.std()#显示标准差,样本标准差?读取存在csv中的dataframe原创 2016-01-08 09:38:28 · 33634 阅读 · 0 评论 -
pandas笔记,长期记录不会的知识点~
1,如果有些列用不到了,用drop([列名],axis=1)去掉,别用del。 2,groupby后的对象是一个个的DataFrame,虽然不能print出来,但是可以使用apply方法,此时的apply传入的参数x就是一个个的DataFrame。 3,DataFrame需要有多个约束条件的时候,不能用and,可以用多个[],例如:temp3[temp3.Final_in_ZD原创 2016-05-17 19:56:11 · 1957 阅读 · 0 评论 -
linux文本处理三剑客(一):grep命令详解
grep命令详解转自:http://www.cnblogs.com/ggjucheng/archive/2013/01/13/2856896.html转载 2016-07-18 19:35:57 · 669 阅读 · 0 评论 -
linux文本处理三剑客(三):awk命令详解
awk命令详解转自:http://www.cnblogs.com/ggjucheng/archive/2013/01/13/2858470.html转载 2016-07-18 20:20:08 · 587 阅读 · 0 评论 -
linux文本处理三剑客(二):sed命令详解
sed命令详解转自:http://www.cnblogs.com/ggjucheng/archive/2013/01/13/2856901.html转载 2016-07-18 20:09:42 · 511 阅读 · 0 评论 -
pandas和数据库进行交互(以mysql为例)
pandas提供了将数据便捷存入关系型数据库的方法在新版的pandas中,主要是以sqlalchemy方式与数据库建立链接支持Mysql、postgresql、Oracle、MS SQLServer、SQLite等主流数据库本例以MySql为代表,展示将从tushare中获取到的股票数据存入数据库的方法其他类型数据库请参考sqlalchemy官方文档的create_engine部分原创 2016-07-17 22:34:32 · 36191 阅读 · 0 评论 -
sqlite的系统表sqlite_master介绍
SQLite数据库中一个特殊的名叫 SQLITE_MASTER 上执行一个SELECT查询以获得所有表的索引。每一个 SQLite 数据库都有一个叫 SQLITE_MASTER 的表, 它定义数据库的模式。 SQLITE_MASTER 表看起来如下:CREATE TABLE sqlite_master ( type TEXT, name TEXT, tbl_name TEXT,转载 2015-09-03 21:10:21 · 2162 阅读 · 0 评论 -
用python从pdf中提取信息,转为txt或者html
主要用到了pdfminer这个库原文地址:http://www.bkjia.com/Pythonjc/1073800.html示例代码# -*- coding: utf-8 -*- from pdfminer.pdfparser import PDFParserfrom pdfminer.pdfdocument import PDFDocumentfrom转载 2016-06-19 10:46:27 · 9867 阅读 · 1 评论 -
标签传播算法(LPA)Python实现
标签传播算法(LPA)的做法比较简单:第一步:为所有节点指定一个唯一的标签;第二步:逐轮刷新所有节点的标签,直到达到收敛要求为止。对于每一轮刷新,节点标签刷新的规则如下:对于某一个节点,考察其所有邻居节点的标签,并进行统计,将出现个数最多的那个标签赋给当前节点。当个数最多的标签不唯一时,随机选一个。注:算法中的记号 N_n^k 表示节点 n 的邻居中标签原创 2016-07-07 17:35:09 · 10703 阅读 · 2 评论 -
在sklearn中使用DataFrame的一些问题
问题1 DataFrame能直接做训练集和测试集吗?猜想最近使用sklearn的模型的时候发现训练集可以直接传入pandas的DataFrame进行训练,而且进行预测的时候也可以直接传入DataFrame,我以为sklearn可以直接识别DataFrame中数据列的顺序,即使列的顺序是乱的也可以直接进行预测,于是做了个测试。测试这里训练集的x_train,测试集是x_test:原创 2016-05-17 22:00:49 · 6257 阅读 · 1 评论 -
python持久性管理pickle模块详细介绍
pickle可以保存python对象,方便以后的使用,可以用来保存模型,使用方法:import cPickle as picklehi = {1:{1:2,3:4},2:{2:3,3:8}}f = open('wordict','wb')pickle.dump(hi,f,1)f.close()f = open('wordict','rb')pi = pickle.load(f)f转载 2016-02-24 10:11:27 · 610 阅读 · 0 评论 -
pandas不能在pycharm中使用plot()方法显示图像的解决方法
最近用了pycharm,感觉还不错,就是pandas中Series、DataFrame的plot()方法不显示图片就给我结束了,但是我在ipython里就能画图以前的代码是这样的import matplotlib.pyplot as pltfrom pandas import DataFrame,SeriesSeries([4,5,7]).plot()找了半天发现只要加个pl原创 2016-01-12 17:29:00 · 35816 阅读 · 12 评论 -
HIVE获取最新分区的数据的方法
场景以dt(日期)分区的hive表,获取最新一天的分区数据 如果是普通的SQL的话,下面这样写就可以了,但是hive中这种写法会报错SELECT*FROM xxxWHERE dt=(SELECTmax(dt)FROMxxx)解决方法在hive里,要用alias才能获取分区中的数据,而且查询条件(WHRER)中还必须带有分区字段(dt),否则会报错SELECTb.item as `it原创 2017-09-06 02:04:27 · 30807 阅读 · 1 评论