pandas.DataFrame 创建和删除操作

最新推荐文章于 2024-11-25 07:18:38 发布

liu_liuqiu

最新推荐文章于 2024-11-25 07:18:38 发布

阅读量3k

点赞数

CC 4.0 BY-SA版权

分类专栏： python

原文链接：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame

python 专栏收录该内容

34 篇文章

订阅专栏

本文深入讲解了Pandas库中DataFrame的创建、数据类型转换、行和列的删除、缺失值处理等功能，通过实例演示了如何使用DataFrame进行高效的数据处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

pandas.DataFrame

class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
参数：
data 可以使用的数据类型( ndarray (structured or homogeneous), Iterable, dict, or DataFrame)
index 行标签；columns 列标签；dtype 强制转换的数据类型

>>> import numpy as np
>>> import pandas as pd
>>> d = {'a':[1,2,3],'b':[4,5,6]}
>>> df = pd.DataFrame(data,dtype=np.int8)
>>> df
   a  b
0  1  4
1  2  5
2  3  6
>>> df.dtypes
a    int8
b    int8
dtype: object
>>> df1 = pd.DataFrame(np.array([[1,2,3],[4,5,6]]),columns=['a','b','c'])
>>> df1
   a  b  c
0  1  2  3
1  4  5  6

pandas.DataFrame.drop

pandas.DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors=‘raise’)
功能：从行或列中删除指定标签
参数：
labels 要删除的行或列的标签（ single label or list-like）
axis 从行或列中删除（0 表示行，1表示列，默认为 0）
index 指定删除的行标签
columns 指定删除的列标签
inplace 默认False，表示不在原数据上操作，返回新的 DataFrame；true表示在原数据上操作，无返回值

>>> df = pd.DataFrame(np.arange(12).reshape(4,3),columns=['a','b','c'])
>>> df
   a   b   c
0  0   1   2
1  3   4   5
2  6   7   8
3  9  10  11
>>> df.drop(['a'],axis=1)	# 不改变原数据，返回新的 DataFrame
    b   c
0   1   2
1   4   5
2   7   8
3  10  11
>>> df
   a   b   c
0  0   1   2
1  3   4   5
2  6   7   8
3  9  10  11
>>> df.drop(index=[1,2],inplace=True)	# 改变原数据，无返回值
>>> df
   a   b   c
0  0   1   2
3  9  10  11

pandas.DataFrame.dropna

pandas.DataFrame.dropna(self, axis=0, how=‘any’, thresh=None, subset=None, inplace=False)
功能：删除缺失值
参数：
axis 删除包含缺失值的行或列( 0 表示行，1 表示列)
how （any：出现 NA，删除该行或列；all：所有值为 NA，删除该行或列）
thresh 保留至少包含 n 个 non-NA 的行或列
subset 定义查找缺失值的列，删除存在 NA 对应的行
inplace 默认False，表示不在原数据上操作，返回新的 DataFrame；true表示在原数据上操作，无返回值

>>> df = pd.DataFrame({"name":['a','b','c'],"toy":[np.NAN,'AA','BB'],"born":pd.NaT,pd.Timestamp("1923"),pd.NaT})
SyntaxError: invalid syntax
>>> df = pd.DataFrame({"name":['a','b','c'],"toy":[np.NAN,'AA','BB'],"born":[pd.NaT,pd.Timestamp("1923"),pd.NaT]})
>>> df
  name  toy       born
0    a  NaN        NaT
1    b   AA 1923-01-01
2    c   BB        NaT
>>> df.dropna()		# 删除存在缺失值的行
  name toy       born
1    b  AA 1923-01-01
>>> df.dropna(axis=1)	# 删除存在缺失值的列
  name
0    a
1    b
2    c
>>> df.dropna(how='all')	# 删除所有值都为 NA 的行
  name  toy       born
0    a  NaN        NaT
1    b   AA 1923-01-01
2    c   BB        NaT
>>> df.dropna(thresh=2)	# 保留至少包含 2 个 non-NA 的行
  name toy       born
1    b  AA 1923-01-01
2    c  BB        NaT
>>> df.dropna(subset=['name','born'])	# 定义查找缺失值的列，删除存在 NA 对应的行
  name toy       born
1    b  AA 1923-01-01