python学习：pandas库之DataFrame官方文档简介

最新推荐文章于 2024-07-06 16:31:56 发布

原创最新推荐文章于 2024-07-06 16:31:56 发布 · 3.6k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#Pandas #DataFrame #Python

Python 专栏收录该内容

0 篇文章

订阅专栏

本文详细介绍Pandas库的主要功能，包括其核心数据结构Series和DataFrame的使用方法。文章列举了DataFrame的各种操作，如生成、属性获取、数据类型转换、索引、二元运算、数据分组与聚合、缺失值处理等，并提供了丰富的示例。

Pandas库是基于Numpy库来创建的，Numpy主要用于矩阵操作，而Pandas主要用于数据处理。

Pandas主要有两种重要的数据结构：Series和DataFrame.

Series: 类似一个一维数组，一个Series对应DataFrame的一列
DataFrame:类似一个二维数组，一个DataFrame由几个Series列构成。

在我们学习任何一种开源框架，必须得学会阅读其官方文档：

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html

根据官方文档，我们先看其最左边的目录：

我们通过对各子目录的简单介绍，来了解DataFrame如何运用:

英文目录	中文目录	该目录下常用属性/方法
Constructor	构造方法	可以由numpy数组/字典/DataFrame生成
Attributes and underlying data	属性值	index：数据表的行索引 columns：数据表的列索引 shape：数据表的形状 dtypes：数据表值的数据类型
Conversion	转换	astype：转换数据类型
Indexing, iteration	索引/迭代	iloc/loc/iteritems/iterrows/isin
Binary operator functions	二元运算符函数	add/sub/mul/div：加减乘除，元素级计算 dot：点乘 df1.combine_first(df2)：用df2的值填充df1的空值
Function application, GroupBy & Window	apply方法/分组/	apply：在数据表中沿着行/列方向调用某方法 groupby：通过mapping/方法/标签/标签集进行分组，返回一个GroupBy对象。GroupBy对象可进行统计学各值计算或调用其apply/agg方法+D15。 agg/aggregate：聚合函数
Computations / Descriptive Stats	计算/描述性统计	describe：输出数据表各列统计值-中位值/方差等 /max/mean/var/corr
Reindexing / Selection/ Label manipulation	重新索引/选择数据/通过标签操作	reindex：重命名行/列 rename：可以通过字典的方法重命名行/列 /reset_index/ head：选择前N行数据，默认前5行 tail：选择最后N行数据，默认后5行 drop_duplicates：返回丢弃了重复值的dataframe duplicated：根据是否是重复值返回布尔值Series drop
Missing data handling	缺失值处理	dropna/fillna/replace
Reshaping/ sorting,/ transposing	改变数组形状/ 排序/转换	sort_values：按表中内容值大小排序， sort_index：按行/列的值大小排序 T：矩阵转置 pivot_table：数据透视表
Combining / joining / merging	合并/连接	append：在数据表末尾添加行数据 /join/ merge：类似SQL的连接，内连接/外连接
Time series-related	时间序列
Plotting	绘制图形	plot：通过kind参数绘制不同图形
Serialization / IO / Conversion	读取操作	from_csv/to_csv
Sparse	稀疏矩阵
数据分箱技术Binning：pandas.cut() 数据分组技术GroupBy：GroupBy.get_group(groupname1)--> 得到其中一组类别的dataframe