pandas.DataFrame 创建和删除操作

本文深入讲解了Pandas库中DataFrame的创建、数据类型转换、行和列的删除、缺失值处理等功能,通过实例演示了如何使用DataFrame进行高效的数据处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

pandas.DataFrame

class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
参数:
data 可以使用的数据类型( ndarray (structured or homogeneous), Iterable, dict, or DataFrame)
index 行标签;columns 列标签;dtype 强制转换的数据类型

>>> import numpy as np
>>> import pandas as pd
>>> d = {'a':[1,2,3],'b':[4,5,6]}
>>> df = pd.DataFrame(data,dtype=np.int8)
>>> df
   a  b
0  1  4
1  2  5
2  3  6
>>> df.dtypes
a    int8
b    int8
dtype: object
>>> df1 = pd.DataFrame(np.array([[1,2,3],[4,5,6]]),columns=['a','b','c'])
>>> df1
   a  b  c
0  1  2  3
1  4  5  6

pandas.DataFrame.drop

pandas.DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors=‘raise’)
功能:从行或列中删除指定标签
参数:
labels 要删除的行或列的标签( single label or list-like)
axis 从行或列中删除(0 表示行,1表示列,默认为 0)
index 指定删除的行标签
columns 指定删除的列标签
inplace 默认False,表示不在原数据上操作,返回新的 DataFrame;true表示在原数据上操作,无返回值

>>> df = pd.DataFrame(np.arange(12).reshape(4,3),columns=['a','b','c'])
>>> df
   a   b   c
0  0   1   2
1  3   4   5
2  6   7   8
3  9  10  11
>>> df.drop(['a'],axis=1)	# 不改变原数据,返回新的 DataFrame
    b   c
0   1   2
1   4   5
2   7   8
3  10  11
>>> df
   a   b   c
0  0   1   2
1  3   4   5
2  6   7   8
3  9  10  11
>>> df.drop(index=[1,2],inplace=True)	# 改变原数据,无返回值
>>> df
   a   b   c
0  0   1   2
3  9  10  11

pandas.DataFrame.dropna

pandas.DataFrame.dropna(self, axis=0, how=‘any’, thresh=None, subset=None, inplace=False)
功能:删除缺失值
参数:
axis 删除包含缺失值的行或列( 0 表示行,1 表示列)
how (any:出现 NA,删除该行或列;all:所有值为 NA,删除该行或列)
thresh 保留至少包含 n 个 non-NA 的行或列
subset 定义查找缺失值的列,删除存在 NA 对应的行
inplace 默认False,表示不在原数据上操作,返回新的 DataFrame;true表示在原数据上操作,无返回值

>>> df = pd.DataFrame({"name":['a','b','c'],"toy":[np.NAN,'AA','BB'],"born":pd.NaT,pd.Timestamp("1923"),pd.NaT})
SyntaxError: invalid syntax
>>> df = pd.DataFrame({"name":['a','b','c'],"toy":[np.NAN,'AA','BB'],"born":[pd.NaT,pd.Timestamp("1923"),pd.NaT]})
>>> df
  name  toy       born
0    a  NaN        NaT
1    b   AA 1923-01-01
2    c   BB        NaT
>>> df.dropna()		# 删除存在缺失值的行
  name toy       born
1    b  AA 1923-01-01
>>> df.dropna(axis=1)	# 删除存在缺失值的列
  name
0    a
1    b
2    c
>>> df.dropna(how='all')	# 删除所有值都为 NA 的行
  name  toy       born
0    a  NaN        NaT
1    b   AA 1923-01-01
2    c   BB        NaT
>>> df.dropna(thresh=2)	# 保留至少包含 2 个 non-NA 的行
  name toy       born
1    b  AA 1923-01-01
2    c  BB        NaT
>>> df.dropna(subset=['name','born'])	# 定义查找缺失值的列,删除存在 NA 对应的行
  name toy       born
1    b  AA 1923-01-01
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值