获取某一列
#method1
df.get('Cabin')
#method2
df['Cabin']
#method3
df.Cabin
获取数据中NAN的个数
num=df.isnull().sum().sum()
对缺失值进行替换
#method1
df.dropna(axis=1)
#method2
df.fillna(0)
#df1 = pd.DataFrame(np.zeros(df.shape))
#df.combine_first(df1)
查看重复值
df.duplicated()
删除重复
df.drop_duplicates()
对离散数据进行分箱
df['AgeBind']=pd.cut(df['Age'],bins=5,labels=[1,2,3,4,5])#将连续变量Age平均分箱成5个年龄段,并分别用类别变量12345表示
#将连续变量Age划分为[0,5) [5,15) [15,30) [30,50) [50,80)五个年龄段,并分别用类别变量12345表示
df['AgeBind']=pd.cut(df['Age'],bins=[0,5,15,30,50,80],labels=[1,2,3,4,5])
#将连续变量Age按10% 30% 50% 70% 90%五个年龄段,并用分类变量12345表示
df['AgeBand'] = pd.qcut(df['Age'],[0,0.1,0.3,0.5,0.7,0.9],labels = [1,2,3,4,5])
对文本数据进行分箱
df['Sex'].value_counts()#查看文本变量
#将文本变量Sex, Cabin, Embarked用one-hot编码表示
for feat in ['Sex','Cabin','Embarked']:
x = pd.get_dummies(df[feat], prefix=feat)
df= pd.concat([df, x], axis=1)
dataFrame.join
#对column进行拼接
dataFrame.append
#对row进行拼接
dataFrame.merge
#对数据进行拼接