Pandas常用函数和常用技巧总结(持续更新)

博客介绍了pandas库,它用于数据预处理。详细列举了多个常用函数,如读取csv文件、检测缺失值、排序、创建数据透视表、删除缺失值等函数的功能及参数。还提及了一些常用技巧,如对DataFrame元素进行四则运算等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

pandas: 对数据进行预处理的库

常用函数

pandas.read_csv(filepath_or_buffer)

  • 将逗号分隔值(csv)文件读入DataFrame。

pandas.isnull(obj)

  • 检测 array-like 对象的缺失值。 此函数采用标量或类似数组的对象,并指示是否缺少值(数值数组中的NaN,对象数组中的None或NaN,datetimelike中的NaT)。
  • obj : scalar or array-like。用于检查空值或缺失值的对象
  • return: 对于标量输入,返回标量布尔值。对于数组输入,返回一个boolean数组,指示是否缺少每个对应的元素。

pandas.to_datetime(arg, errors=‘raise’)

  • arg : integer, float, string, datetime, list, tuple, 1-d array, Series

    • New in version 0.18.1: or DataFrame/dict-like
  • errors : {‘ignore’, ‘raise’, ‘coerce’}, default ‘raise’

    • raise:无效的解析会引发异常
    • coerce:无效的解析将设置为NaT
    • ignore:无效的解析将返回输入
  • return: datetime64类型的值

    • 0   2015-02-04
      1   2016-03-05
      dtype: datetime64[ns]
      

DataFrame.head(n=5)

  • 返回前n行。 此函数根据位置返回对象的前n行。如果您的对象中包含正确类型的数据,则可以快速测试它。

DataFrame.tail(n=5)

  • 此函数根据位置返回对象的最后n行。它对于快速验证数据很有用,例如,在排序或追加行之后。

DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind=‘quicksort’, na_position=‘last’)

  • 按任一轴的值排序
  • by : str or list of str —— 要排序的名称或名称列表。
  • axis: {0 or ‘index’, 1 or ‘columns’}, default 0
  • inplace : bool, default False。如果为True,则就地执行操作
  • ascending : bool or list of bool, default True。按升序与降序排序。指定多个排序顺序的列表。如果这是bool列表,则必须与by的长度匹配。

DataFrame.pivot_table(values=None, index=None, columns=None, aggfunc=‘mean’, fill_value=None, margins=False, dropna=True, margins_name=‘All’)

  • 创建一个电子表格样式的数据透视表作为DataFrame。数据透视表中的级别将存储在结果DataFrame的索引和列上的MultiIndex对象(层次索引)中。
  • values : 要聚合的列,可选
  • index : column, Grouper, array, or list of the previous。如果传递数组,则它必须与数据的长度相同。该列表可以包含任何其他类型(列表除外)。在数据透视表索引上分组的键。如果传递数组,则它的使用方式与列值相同。
  • aggfunc : function, list of functions, dict, default numpy.mean 。如果传递的函数列表,生成的数据透视表将具有分层列,其顶层是函数名称(从函数对象本身推断)如果传递dict,则键是要聚合的列,值是函数或函数列表

DataFrame.dropna(axis=0, how=‘any’, thresh=None, subset=None, inplace=False)

  • 删除缺失值
  • axis : {0 or ‘index’, 1 or ‘columns’}, default 0
    • 从版本0.23.0开始不推荐使用:将元组或列表传递给多个轴。只允许一个轴。

DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)

  • 使用指定的方法填充NA / NaN值。
  • value : scalar, dict, Series, or DataFrame 。用于填充 NaN 的值
  • method : {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None。用于填充重新索引的填充孔的方法系列填充/填充:将最后有效观察向前传播到下一个有效回填/填充:使用NEXT有效观察来填补空白
  • axis : {0 or ‘index’, 1 or ‘columns’}

DataFrame.reset_index(level=None, drop=False, inplace=False, col_level=0, col_fill=’’)

  • 重置索引或其级别。
  • level : int, str, tuple, or list, default None。仅从索引中删除给定的级别。默认情况下删除所有级别。
  • drop : bool, default False。不要尝试将索引插入到dataframe列中。这会将索引重置为默认整数索引。

常用技巧

DataFrame.columns

  • 返回 DataFrame的列标签

DataFrame.shape

  • 返回表示DataFrame维度的元组。

DataFrame.loc

  • 按标签或布尔数组访问一组行和列。 .loc []主要基于标签,但也可以与布尔数组一起使用。
  • Note: 与通常的python切片相反,包括开始和停止

对DataFrame进行 + 、- 、* 、/ ,就是对所有元素进行计算

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值