
pandas
文章平均质量分 85
蓝鲸123
做更好的自己
展开
-
python pandas消除空值和空格以及 Nan数据替换
在人工采集数据时,经常有可能把空值和空格混在一起,一般也注意不到在本来为空的单元格里加入了空格。这就给做数据处理的人带来了麻烦,因为空值和空格都是代表的无数据,而pandas中Series的方法notnull()会把有空格的数据也纳入进来,这样就不能完整地得到我们想要的数据了,这里给出一个简单的方法处理该问题。方法1:既然我们认为空值和空格都代表无数据,那么可以先得到这两种情况...原创 2018-05-24 13:47:57 · 71981 阅读 · 0 评论 -
pandas常用用法
1.将DataFrame里面的数值提取成listuserList=list()userList= userList + df1['userID'].values.tolist()2 . 构造含有index的dataFrameactData = pd.DataFrame(index=userList)actData = actData.sort_index()3 . 通过一...原创 2018-07-19 17:15:34 · 331 阅读 · 0 评论 -
Pandas Rank进行排序
排序和排名根据条件对Series对象或DataFrame对象的值排序(sorting)和排名(ranking)是一种重要的内置运算。first: 对于相同的值按照出现的顺序排名 min: 对于相同的值都取小的排名 max:对于相同的值都取大的排名import pandas as pda=pd.DataFrame({'A':[1,2,3],'B':[1,2,3]})#对...原创 2018-07-11 11:42:35 · 3169 阅读 · 0 评论 -
pandas 将多个DataFrame进行groupBy合并
import pandas as pddf = pd.DataFrame({'uid': [1, 2, 3, 4], 'B': [1, 2, 3, 4], 'C': [4,5,6,7]})df2=pd.DataFrame({'uid':[1,1,2,2], 'hello':['...原创 2018-07-10 20:14:48 · 5583 阅读 · 0 评论 -
pandas 对group进行聚合
DataFrameGroupBy.agg(arg, *args, **kwargs) 例子:>>> df = pd.DataFrame({'A': [1, 1, 2, 2],... 'B': [1, 2, 3, 4],... 'C': np.random.randn(4)})输出:...原创 2018-07-10 20:04:36 · 3035 阅读 · 0 评论 -
通过Pandas读取大文件
当数据文件过大时,由于计算机内存有限,需要对大文件进行分块读取:import pandas as pdf = open('E:/学习相关/Python/数据样例/用户侧数据/test数据.csv')reader = pd.read_csv(f, sep=',', iterator=True)loop = TruechunkSize = 100000chunks = []whi...原创 2018-05-24 16:28:13 · 1993 阅读 · 0 评论 -
Pandas 行列操作
行选择 不管何时,你调用了一个方法返回或者打印一个DataFrame时,最左边的一列必然是索引值,可以通过index属性来直接访问DataFrame的索引值。import pandas as pddf1=pd.DataFrame({'name':['kate','herz','catherine','sally'], 'age':[25,28,39,...原创 2018-05-24 16:24:37 · 937 阅读 · 0 评论 -
python---pandas.merge使用
merge 函数参数merge: 合并数据集, 通过left, right确定连接字段,默认是两个数据集相同的字段 参数 说明 left 参与合并的左侧DataFrame right 参与合并的右侧DataFrame how 连接方式:‘inner’(默认);还有,‘outer’、‘left’、‘right’ on 用于连接的列名,必须同时存在于左右两个DataFrame对...原创 2018-05-24 16:08:42 · 715 阅读 · 0 评论 -
pandas中apply函数的用法
apply函数可以对DataFrame对象进行操作,既可以作用于一行或者一列的元素,也可以作用于单个元素。例:列元素data=np.arange(0,16).reshape(4,4)data=pd.DataFrame(data,columns=['0','1','2','3'])def f(x): return x-1print(data)print(data.ix[:...转载 2018-05-24 15:51:30 · 2388 阅读 · 0 评论 -
pandas apply应用并行进程,多核加快数据清洗速度
在2019届腾讯广告算法大赛中对1亿级别的数据,使用了多进程加速数清洗。会用到 pandas 。但是 pandas 本身好像并没有提供多进程的机制。本文将介绍如何来自己实现 pandas (apply 函数)的多进程执行。其中,我们主要借助 joblib 库,这个库为python 提供了一个非常简洁方便的多进程实现方法。原来单进程代码:df1 = pd.read_csv('file1.csv...原创 2019-04-25 17:02:55 · 4429 阅读 · 0 评论