pandas使用笔记
文章平均质量分 85
william_cheng666
数据挖掘算法研发,现从事结构健康监测行业工作。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
pandas:找出、删除重复的数据(Python)
pandas:找出、删除重复的数据(Python)前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言pandas.DataFrame.duplicated提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.py原创 2021-03-22 13:57:38 · 50689 阅读 · 4 评论 -
pandas:超级方便的插值函数interpolate
pandas:超级方便的插值函数interpolate前言一、pandas.DataFrame.interpolate()?二、使用步骤1.引入库2.读入数据总结前言前段时间做个项目,处理缺失值时选择线性插值的方法,自己麻烦的写了个函数去实现,后来才发现pandas其实自带一个很强大的插值函数:interpolate。interpolate可以用在DataFrame对象上,也可以用在Series对象上。一、pandas.DataFrame.interpolate()?DataFrame.inte原创 2021-01-12 15:43:22 · 42389 阅读 · 1 评论 -
pandas:缺失值处理
pandas:缺失值处理前言一、isnull()二、notnull()三、dropna()四、fillna()总结前言当我们在处理数据时,总会遇到数值缺失的问题,pandas在处理缺失值的方面提供了很全面的方法,主要包括:isnull()——找出缺失值;notnull()——找出非缺失值;dropna()——剔除缺失值;fillna()——填充缺失值。具体使用方法请往下看。提示:以下是本篇文章正文内容,下面案例可供参考一、isnull()isnull()用来找出缺失值的位置,返回一个布尔类型的原创 2020-12-28 17:11:51 · 6408 阅读 · 10 评论 -
pandas:计算时内存不足怎么办(eval和query)
pandas:让计算再提速(eval和query)前言一、eval()和query()的由来二、eval()的介绍1.pandas.DataFrame.eval2.pandas.eval总结前言前面几篇文章笔者介绍了如何使pandas计算得到大幅提升,其中包括pandas快速处理字符串方法和使用map、apply和applymap函数批量处理数据,并且比普通循环操作处理数据快500多倍,本文将再次谈及为pandas计算加速,希望能帮助大家。提示:为方便快捷地解决问题,本文仅介绍函数的主要用法,并非原创 2020-12-09 15:30:57 · 1616 阅读 · 0 评论 -
pandas:使用函数批量处理数据(map、apply、applymap)
数据预处理方法:如何有效去除单点毛刺前言一、DataFrame.resample()是什么?二、DataFrame.resample()函数参数及说明主要参数说明使用函数聚合时间数据总结前言我们在使用传感器传回的数据时会发现数据经常会有一些毛刺,提示:为方便快捷地解决问题,本文仅介绍函数的主要用法,并非全面介绍一、DataFrame.resample()是什么?DataFrame.resample()函数是频率转换和时间序列重采样的便捷方法。对象必须具有datetime类似的索引。二、Dat原创 2020-11-26 14:02:13 · 5096 阅读 · 5 评论 -
pandas:快速处理字符串方法
pandas:快速处理字符串方法前言前言当我们遇到一个超级大的DataFrame,里面有一列类型为字符串,要将每一行的字符串都用同一方式进行处理,一般会想到遍历整合DataFrame,但是如果直接这样做的话将会耗费很长时间,有时几个小时都处理不完。于是就有了本篇文章所要分享给大家的:pandas快速处理字符串方法。...原创 2020-11-18 10:25:17 · 4623 阅读 · 0 评论 -
pandas: DataFrame 将时间按小时分钟等方式聚合
pandas: DataFrame 将时间按小时分钟等方式聚合前言一、DataFrame.resample()是什么?二、DataFrame.resample()函数参数及说明说明2.读入数据总结前言在实际应用过程中,会出现不少时间序列相关数据,为了让不同频率数据统一时间标准,需要将数据按小时、分钟等方式进行分组,然后取组的平均值或中位数最为组的值,如果自己写算法会比较麻烦且耗时,pandas提供了一个函数可以快速解决此类问题:DataFrame.resample()。提示:为方便快捷地解决问题,原创 2020-11-04 17:29:38 · 17254 阅读 · 0 评论
分享