pandas
- 常用函数
- `pandas.read_csv`(*filepath_or_buffer*)
- `pandas.isnull`(*obj*)
- `pandas.to_datetime`(*arg*, *errors='raise'*)
- `DataFrame.head`(*n=5*)
- `DataFrame.tail`(*n=5*)
- `DataFrame.sort_values`(*by*, *axis=0*, *ascending=True*, *inplace=False*, *kind='quicksort'*, *na_position='last'*)
- `DataFrame.pivot_table`(*values=None*, *index=None*, *columns=None*, *aggfunc='mean'*, *fill_value=None*, *margins=False*, *dropna=True*, *margins_name='All'*)
- `DataFrame.dropna`(*axis=0*, *how='any'*, *thresh=None*, *subset=None*, *inplace=False*)
- `DataFrame.fillna`(*value=None*, *method=None*, *axis=None*, *inplace=False*, *limit=None*, *downcast=None*, ***kwargs*)
- `DataFrame.reset_index`(*level=None*, *drop=False*, *inplace=False*, *col_level=0*, *col_fill=''*)
- 常用技巧
pandas: 对数据进行预处理的库
常用函数
pandas.read_csv
(filepath_or_buffer)
- 将逗号分隔值(csv)文件读入DataFrame。
pandas.isnull
(obj)
- 检测 array-like 对象的缺失值。 此函数采用标量或类似数组的对象,并指示是否缺少值(数值数组中的NaN,对象数组中的None或NaN,datetimelike中的NaT)。
- obj : scalar or array-like。用于检查空值或缺失值的对象
- return: 对于标量输入,返回标量布尔值。对于数组输入,返回一个boolean数组,指示是否缺少每个对应的元素。
pandas.to_datetime
(arg, errors=‘raise’)
-
arg : integer, float, string, datetime, list, tuple, 1-d array, Series
- New in version 0.18.1: or DataFrame/dict-like
-
errors : {‘ignore’, ‘raise’, ‘coerce’}, default ‘raise’
- raise:无效的解析会引发异常
- coerce:无效的解析将设置为NaT
- ignore:无效的解析将返回输入
-
return: datetime64类型的值
-
0 2015-02-04 1 2016-03-05 dtype: datetime64[ns]
-
DataFrame.head
(n=5)
- 返回前n行。 此函数根据位置返回对象的前n行。如果您的对象中包含正确类型的数据,则可以快速测试它。
DataFrame.tail
(n=5)
- 此函数根据位置返回对象的最后n行。它对于快速验证数据很有用,例如,在排序或追加行之后。
DataFrame.sort_values
(by, axis=0, ascending=True, inplace=False, kind=‘quicksort’, na_position=‘last’)
- 按任一轴的值排序
- by : str or list of str —— 要排序的名称或名称列表。
- axis: {0 or ‘index’, 1 or ‘columns’}, default 0
- inplace : bool, default False。如果为True,则就地执行操作
- ascending : bool or list of bool, default True。按升序与降序排序。指定多个排序顺序的列表。如果这是bool列表,则必须与by的长度匹配。
DataFrame.pivot_table
(values=None, index=None, columns=None, aggfunc=‘mean’, fill_value=None, margins=False, dropna=True, margins_name=‘All’)
- 创建一个电子表格样式的数据透视表作为DataFrame。数据透视表中的级别将存储在结果DataFrame的索引和列上的MultiIndex对象(层次索引)中。
- values : 要聚合的列,可选
- index : column, Grouper, array, or list of the previous。如果传递数组,则它必须与数据的长度相同。该列表可以包含任何其他类型(列表除外)。在数据透视表索引上分组的键。如果传递数组,则它的使用方式与列值相同。
- aggfunc : function, list of functions, dict, default numpy.mean 。如果传递的函数列表,生成的数据透视表将具有分层列,其顶层是函数名称(从函数对象本身推断)如果传递dict,则键是要聚合的列,值是函数或函数列表
DataFrame.dropna
(axis=0, how=‘any’, thresh=None, subset=None, inplace=False)
- 删除缺失值
- axis : {0 or ‘index’, 1 or ‘columns’}, default 0
- 从版本0.23.0开始不推荐使用:将元组或列表传递给多个轴。只允许一个轴。
DataFrame.fillna
(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)
- 使用指定的方法填充NA / NaN值。
- value : scalar, dict, Series, or DataFrame 。用于填充 NaN 的值
- method : {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None。用于填充重新索引的填充孔的方法系列填充/填充:将最后有效观察向前传播到下一个有效回填/填充:使用NEXT有效观察来填补空白
- axis : {0 or ‘index’, 1 or ‘columns’}
DataFrame.reset_index
(level=None, drop=False, inplace=False, col_level=0, col_fill=’’)
- 重置索引或其级别。
- level : int, str, tuple, or list, default None。仅从索引中删除给定的级别。默认情况下删除所有级别。
- drop : bool, default False。不要尝试将索引插入到dataframe列中。这会将索引重置为默认整数索引。
常用技巧
DataFrame.columns
- 返回 DataFrame的列标签
DataFrame.shape
- 返回表示DataFrame维度的元组。
DataFrame.loc
- 按标签或布尔数组访问一组行和列。 .loc []主要基于标签,但也可以与布尔数组一起使用。
- Note: 与通常的python切片相反,包括开始和停止