pandas学习第二天

最新推荐文章于 2025-05-21 19:43:44 发布

喵喵喵喵诺

最新推荐文章于 2025-05-21 19:43:44 发布

阅读量150

点赞数

CC 4.0 BY-SA版权

分类专栏： pandas python 文章标签： python

本文链接：https://blog.youkuaiyun.com/qq_42987423/article/details/120336758

python 同时被 2 个专栏收录

8 篇文章

订阅专栏

pandas

2 篇文章

订阅专栏

获取某一列

#method1
df.get('Cabin')
#method2
df['Cabin']
#method3
df.Cabin

获取数据中NAN的个数

num=df.isnull().sum().sum()

对缺失值进行替换

#method1
df.dropna(axis=1)
#method2
df.fillna(0)

#df1 = pd.DataFrame(np.zeros(df.shape))
#df.combine_first(df1)

查看重复值

df.duplicated()

删除重复

df.drop_duplicates()

对离散数据进行分箱

df['AgeBind']=pd.cut(df['Age'],bins=5,labels=[1,2,3,4,5])#将连续变量Age平均分箱成5个年龄段，并分别用类别变量12345表示
#将连续变量Age划分为[0,5) [5,15) [15,30) [30,50) [50,80)五个年龄段，并分别用类别变量12345表示
df['AgeBind']=pd.cut(df['Age'],bins=[0,5,15,30,50,80],labels=[1,2,3,4,5])
#将连续变量Age按10% 30% 50% 70% 90%五个年龄段，并用分类变量12345表示
df['AgeBand'] = pd.qcut(df['Age'],[0,0.1,0.3,0.5,0.7,0.9],labels = [1,2,3,4,5])

对文本数据进行分箱

df['Sex'].value_counts()#查看文本变量

#将文本变量Sex， Cabin， Embarked用one-hot编码表示
for feat in ['Sex','Cabin','Embarked']:
    x = pd.get_dummies(df[feat], prefix=feat)
    df= pd.concat([df, x], axis=1)