pandas 数据分析2：DataFrame 属性和检索

原创已于 2023-08-23 11:02:00 修改 · 748 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python #数据分析 #pandas #笔记 #学习

于 2023-08-18 00:50:27 首次发布

Python 数据分析专栏收录该内容

7 篇文章

订阅专栏

本文详细介绍了PandasDataFrame的基本属性如索引、列标签和数据类型，以及常用的数据信息获取方法如`info()`，以及行与列的检索技巧，包括`head()`、`tail()`、`loc`和`iloc`等函数的使用。

DataFrame 数据信息属性和检索

- DataFrame 属性和检索

DataFrame 属性和检索

建立一个随机数据（DataFrame），其行标签为年份，列标签为10天干，数据值为1~100的随机整数。

import pandas as pd

import numpy as np


years = pd.date_range("2002", periods=21, freq="A").year
# years

columns = list("甲乙丙丁戊己庚辛壬癸")

df = pd.DataFrame({ col: pd.Series(np.random.randint(1, 100, len(years)), index=years) for col in columns })
# df

数据信息总览

数据信息 - DataFrame.info()

默认参数全为空值且顾名思义。

df.info(verbose=None, buf=None, max_cols=None, memory_usage=None, show_counts=None)


df.info(max_cols=4)  # 10列，大于4，不输出列的详情

<class ‘pandas.core.frame.DataFrame’>
Index: 21 entries, 2002 to 2022
Columns: 10 entries, 甲 to 癸
dtypes: int32(10)
memory usage: 924.0 bytes

行列标签 - DataFrame.index & DataFrame.columns

行标签和列标签都是基本属性。

df.index

df.columns

数据类型 - Data.dtypes

一个由各列数据类型组成的 Series。

df.dtypes

甲 int32
乙 int32
…
癸 int32
dtype: object

其他【查看数据描述】的常用属性与方法

DataFrame.values，值部分，是一个数组，建议使用 DataFrame.to_numpy()。
DataFrame.axes，坐标，即行列标签。
DataFrame.ndim，维度，2；Series - 1。
DataFrame.shape，形状，行数和列数组成的一个元组。
DataFrame.size，行数×列数。
DataFrame.memory_usage()，返回各列内存使用情况组成的 Series。
DataFrame.empty，是否为空，布尔值。

检索方法

首尾部检索方法语法简单，DataFrame 调用则返回一个 DataFrame；Series 亦然。

首部 - DataFrame.head(n=5)

n 是一个默认参数，默认为5，此方法相当于 DataFrame[:n]，即对首部的 n 行进行检索。

df.head()  # df[:5]

df.head(4)  # df[:4]

type(df.head())  # DataFrame

尾部 - DataFrame.tail(n=5)

尾部检索相当于 DataFrame[-n:]

df.tail()  # df[-5:]

df.tail(10)  # df[-10:]

行与列的检索

经常来说，检索具有一定属性的某行（列）、某些行（列）是很必要的。

一列

通过列标签直接索引，DataFrame[列标签]，返回一个 Series 对象。

多列

通过标签列表直接索引，DataFrame[col_list]，返回一个 DataFrame 对象。

一行

通过定位行标签或定位行数，见 here

多行

通过行切片语法切片，DataFrame[0:3]，返回一个切片的 DataFrame。

定位检索

这里新建一个标签易于分辨的 DataFrame。

df2 = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9], [0, 0, 0]], index=list("甲乙丙丁"), columns=['A', 'B', 'C'])

df2.loc["甲"]
df2.loc[["甲", "丁"]]
df2.loc["甲":"丙"]

df2.loc[["甲", "乙"], ["A", "B"]]
df2.loc["甲":"丙", ["A", "B"]]
df2.loc["乙", "A"]  # df2.at["乙", "A"]

df2.iloc[1]
df2.iloc[[0, 2]]
df2.iloc[1:]

df2.iloc[[0, 2], [1, 2]]
df2.iloc[[0, 2], :]
df2.iloc[2, 1]  # df2.iat[2, 1]