
DataFrame
会飞的猩猩。
这个作者很懒,什么都没留下…
展开
-
如何修改聚合后的数据的index
>>> data.groupby(['name']).agg(age_sum = ('age','sum'),age_mean=('age','mean')).reset_index() name age_sum age_mean0 x 70 35.01 y 93 46.52 z 30 30.0原创 2020-09-04 20:15:42 · 1139 阅读 · 0 评论 -
DataFrame groupby+agg出现SpecificationError: nested renamer is not supported的错误
这个应该是pandas的版本问题,我的是v1.0.5>>> import pandas as pd>>> data=pd.DataFrame({'name':['x','y','x','y','z'],'sex':['f','m','f','f','m'],'age':[25,26,45,67,30]})>>> data name sex age0 x f 251 y m 262 x f .原创 2020-09-04 19:58:57 · 4712 阅读 · 0 评论 -
【Python】处理时间数据格式出现time data does not match format valueError
ValueError: time data '19970004' does not match format '%Y%m%d' (match)原创 2020-06-04 11:41:39 · 73181 阅读 · 6 评论 -
【Python】对DataFrame空值进行统计
现实中的数据,总是不理想的,比如说数据中有的列会存在缺失值。缺失值太多的样本本身没有太多的信息,对训练模型就没有作用。同时,缺失值会影响模型,特别是使用度量相关的模型。如KNN和SVM。### 统计数据每列的缺失数量ListData.isnull().sum()Out[11]: id 0name 1host_id原创 2020-05-29 17:14:06 · 11018 阅读 · 0 评论 -
【Python】Dataframe删除空值
上一篇文件讲了如何判断Datafram里面的空值,这一篇我们聊一下如何删除Dataframe中的空值。翻译 2020-03-27 20:50:23 · 37113 阅读 · 2 评论 -
pandas.read_csv() 报错 OSError: Initializing from file failed,报错原因分析和解决方法
Python版本:Python 3.6pandas.read_csv() 报错 OSError: Initializing from file failed,一般由两种情况引起:一种是函数参数为路径而非文件名称,另一种是函数参数带有中文。亲测有效,解决了我的问题!!# -*- coding: utf-8 -*-"""Created on Mon Jun 4 09:44:36 2018...转载 2020-01-09 12:38:30 · 318 阅读 · 0 评论 -
【Python】将Dataframe转化为字典(dict)
【Python】将字典转化为Dataframe有时候我们需要Dataframe中的一列作为key,另一列作为key对应的value。比如说在已知词频画词云的时候,这个时候需要传入的数据类型是词典。import pandas as pddata = pd.DataFrame([['a',1],['b',2]], columns=['key','value'])dict1 = dic...原创 2019-12-11 10:24:03 · 56452 阅读 · 8 评论 -
【Python】【DataFrame】TypeError: argument of type 'float' is not iterable
有时候在迭代Dataframe的时候会出来一个TypeError,感觉真的是莫名奇妙。比如针对下面这个数据,想把duration里面的字符’s‘去掉,运用下面的代码就报错了。tempDataOut[12]: duration likes0 2.3 891 3s 67tempData.duration = tempData.durati...原创 2019-11-14 15:29:55 · 12057 阅读 · 3 评论 -
【Python】【DataFrame】判断空值出现TypeError的错误
一直用的是numpy的np.isnan()来判断,结果今天用的时候就爆了下面的错误TypeError: ufunc 'isnan' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule '...原创 2019-11-14 15:38:06 · 1649 阅读 · 0 评论 -
DataFrame计算corr()函数计算相关系数时,出现返回值为空或NaN的情况
1. 返回值为空的情况出现返回值为空的情况是因为数据的类型不是数值型。用data.info()函数可以查看dataframe的信息。这里举个例子:###创建一个dataframe,数据类型为objectdata = pd.DataFrame([[1,2,3],[4,5,6]],columns=['a','b','c'],dtype=object)dataOut[23]: ...原创 2018-09-15 00:01:48 · 43389 阅读 · 7 评论 -
【Python】【 DataFrame】判断某一列的值是否包含另一列的值
在操作DataFrame的时候偶尔会需要判断同一个DataFrame中的一列是否包含另一列的元素,首先想到的就是用 in 和 not in,可是直接使用会报错:import pandas as pddata = {'地址1':['广东深圳','广东汕头','重庆'],'地址2':['深圳','揭阳','北京']}df = pd.DataFrame(data)df = df[df.a...原创 2019-10-17 10:16:57 · 29235 阅读 · 1 评论 -
【Python】将字典(dict)转化为Dataframe
【Python】将Dataframe转化为字典偶现在知道的将字典转换为DataFrame主要有两种方法。第一种方法,直接使用pd.DataFrame()。需要注意的是这种方法需要先将字典变为list。>>> dict = {'a':'apple','b':'banana'}>>> dict{'a': 'apple', 'b': 'banana'...原创 2019-04-17 23:22:48 · 120596 阅读 · 5 评论 -
Python在Dataframe中新添加一列
在敲代码的过程中,老是会遇到在Dataframe中新添加一列的情况,每次都要重新google,这次做个记录。其实在Dataframe中新添加一列很简单,直接指明列名,然后赋值就可以了。import pandas as pddata = pd.DataFrame(columns=['a','b'], data=[[1,2],[3,4]])data>>> dat...原创 2019-08-13 16:31:25 · 281125 阅读 · 7 评论 -
Python pandas处理(提取/删除)DataFrame中的重复行
在处理数据的时候,我们经常会遇到处理重复数据的情况。根据需求一般有两种情况,下面我们分别针对两种情况举????:第一种情况,去掉重复的数据:### 构造数据data = pd.DataFrame(data=[['a',1],['a',2],['b',1],['b',2],['a',1]],columns=['label','num'])dataOut[17]: label nu...原创 2019-08-22 10:47:29 · 38083 阅读 · 2 评论