pandas.DataFrame
class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
参数:
data 可以使用的数据类型( ndarray (structured or homogeneous), Iterable, dict, or DataFrame)
index 行标签;columns 列标签;dtype 强制转换的数据类型
>>> import numpy as np
>>> import pandas as pd
>>> d = {'a':[1,2,3],'b':[4,5,6]}
>>> df = pd.DataFrame(data,dtype=np.int8)
>>> df
a b
0 1 4
1 2 5
2 3 6
>>> df.dtypes
a int8
b int8
dtype: object
>>> df1 = pd.DataFrame(np.array([[1,2,3],[4,5,6]]),columns=['a','b','c'])
>>> df1
a b c
0 1 2 3
1 4 5 6
pandas.DataFrame.drop
pandas.DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors=‘raise’)
功能:从行或列中删除指定标签
参数:
labels 要删除的行或列的标签( single label or list-like)
axis 从行或列中删除(0 表示行,1表示列,默认为 0)
index 指定删除的行标签
columns 指定删除的列标签
inplace 默认False,表示不在原数据上操作,返回新的 DataFrame;true表示在原数据上操作,无返回值
>>> df = pd.DataFrame(np.arange(12).reshape(4,3),columns=['a','b','c'])
>>> df
a b c
0 0 1 2
1 3 4 5
2 6 7 8
3 9 10 11
>>> df.drop(['a'],axis=1) # 不改变原数据,返回新的 DataFrame
b c
0 1 2
1 4 5
2 7 8
3 10 11
>>> df
a b c
0 0 1 2
1 3 4 5
2 6 7 8
3 9 10 11
>>> df.drop(index=[1,2],inplace=True) # 改变原数据,无返回值
>>> df
a b c
0 0 1 2
3 9 10 11
pandas.DataFrame.dropna
pandas.DataFrame.dropna(self, axis=0, how=‘any’, thresh=None, subset=None, inplace=False)
功能:删除缺失值
参数:
axis 删除包含缺失值的行或列( 0 表示行,1 表示列)
how (any:出现 NA,删除该行或列;all:所有值为 NA,删除该行或列)
thresh 保留至少包含 n 个 non-NA 的行或列
subset 定义查找缺失值的列,删除存在 NA 对应的行
inplace 默认False,表示不在原数据上操作,返回新的 DataFrame;true表示在原数据上操作,无返回值
>>> df = pd.DataFrame({"name":['a','b','c'],"toy":[np.NAN,'AA','BB'],"born":pd.NaT,pd.Timestamp("1923"),pd.NaT})
SyntaxError: invalid syntax
>>> df = pd.DataFrame({"name":['a','b','c'],"toy":[np.NAN,'AA','BB'],"born":[pd.NaT,pd.Timestamp("1923"),pd.NaT]})
>>> df
name toy born
0 a NaN NaT
1 b AA 1923-01-01
2 c BB NaT
>>> df.dropna() # 删除存在缺失值的行
name toy born
1 b AA 1923-01-01
>>> df.dropna(axis=1) # 删除存在缺失值的列
name
0 a
1 b
2 c
>>> df.dropna(how='all') # 删除所有值都为 NA 的行
name toy born
0 a NaN NaT
1 b AA 1923-01-01
2 c BB NaT
>>> df.dropna(thresh=2) # 保留至少包含 2 个 non-NA 的行
name toy born
1 b AA 1923-01-01
2 c BB NaT
>>> df.dropna(subset=['name','born']) # 定义查找缺失值的列,删除存在 NA 对应的行
name toy born
1 b AA 1923-01-01