pandas学习第二天

获取某一列

#method1
df.get('Cabin')
#method2
df['Cabin']
#method3
df.Cabin

获取数据中NAN的个数

num=df.isnull().sum().sum()

对缺失值进行替换

#method1
df.dropna(axis=1)
#method2
df.fillna(0)

#df1 = pd.DataFrame(np.zeros(df.shape))
#df.combine_first(df1)

查看重复值

df.duplicated()

删除重复

df.drop_duplicates()

对离散数据进行分箱

df['AgeBind']=pd.cut(df['Age'],bins=5,labels=[1,2,3,4,5])#将连续变量Age平均分箱成5个年龄段,并分别用类别变量12345表示
#将连续变量Age划分为[0,5) [5,15) [15,30) [30,50) [50,80)五个年龄段,并分别用类别变量12345表示
df['AgeBind']=pd.cut(df['Age'],bins=[0,5,15,30,50,80],labels=[1,2,3,4,5])
#将连续变量Age按10% 30% 50% 70% 90%五个年龄段,并用分类变量12345表示
df['AgeBand'] = pd.qcut(df['Age'],[0,0.1,0.3,0.5,0.7,0.9],labels = [1,2,3,4,5])

对文本数据进行分箱

df['Sex'].value_counts()#查看文本变量
#将文本变量Sex, Cabin, Embarked用one-hot编码表示
for feat in ['Sex','Cabin','Embarked']:
    x = pd.get_dummies(df[feat], prefix=feat)
    df= pd.concat([df, x], axis=1)

dataFrame.join
#对column进行拼接
dataFrame.append
#对row进行拼接
dataFrame.merge
#对数据进行拼接

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值