
数据处理
文章平均质量分 54
是阿采哦
个人维护公众号:一只小coder
欢迎和我一起交流学习哦!
展开
-
python连接presto传递多个参数
python连接presto传递多个参数原创 2022-06-02 17:01:44 · 1003 阅读 · 0 评论 -
pandas数据处理——根据条件新增/替换某一列值
以前又傻又菜的时候,根据条件替换某一列值或新增总是会写一些for 循环去处理,现在发现一个更简洁的方式,就是善用pandas方法。根据条件新增一列值现有数据集如下所示:调用apply()方法,可以作用于Series或者整个DataFrame,它自动遍历整个Series或者DataFrame, 对每一个元素运行指定的函数。新增一列label,要求按照id列是否包含M来指定label的取值:#按条件新增一列df['label']=df.id.apply(lambda x:...原创 2021-03-12 11:22:25 · 14208 阅读 · 0 评论 -
pandas数据处理——取出重复数据
平常我们用pandas做重复数据处理时,常常调用到drop_duplicates方法,来去除重复保留唯一值。现在我不想去除重复,而是把整个重复数据输出,数据如下所示:https://www.cnblogs.com/trotl/p/11876292.htmlhttps://blog.youkuaiyun.com/qq_37977267/article/details/83585869https://www.cnpython.com/qa/66175https://blog.youkuaiyun.com/qq236原创 2021-03-12 10:48:05 · 15558 阅读 · 0 评论 -
pandas数据处理——消除空格
在数据预处理时,因为人工采集数据的过程,经常有可能把空值和空格混在一起,一般也注意不到在本来为空的单元格里加入了空格。这就给做数据处理的人带来了麻烦,因为空值和空格都是代表的无数据,而pandas中Series的方法notnull()会把有空格的数据也纳入进来。一般这种情况采用的做法是,先将空格用NaN值替换,再进行空值填充。源数据形式如下:再看一下数据的行数及数据格式:可以看到,对于data["call_result2"]这一列数据是有缺失的,我们先用nan值将空格处理了,再进行空值处原创 2021-02-03 10:39:04 · 7476 阅读 · 1 评论 -
pandas数据处理——时间差计算
计算两列数据的时间差,按天数返回。源数据的格式如下:为防止两列出现空值情况,先对其进行空值填充(可选)# 时间空值填充time=date(2000,1,1)data[["l_call_time3","l_call_time2"]]=data[["l_call_time3","l_call_time2"]].fillna(time)调用pandas.to_datetime()函数将数据转换为日期时间,再进行时间差计算。data["l_call_time23"]=pd.to_da原创 2021-02-02 12:13:36 · 14829 阅读 · 4 评论