pandas是python里面一款非常优秀的做数据分析与挖掘的包,也是所有的数据分析和挖掘从业人员最需要掌握的基本包
下面介绍pandas的基本操作
import pandas as pd
import numpy as np
1. 读取数据
# 具体参数在spyder可以快捷键ctrl+i,在jupyter notebook可以快捷键shift+tab
data=pd.read_excel()
data=pd.read_csv()
# txt文件
data=pd.read_table()
2. 查看表信息
# 查看前面和后面部分数据
data.head(10)
data.tail(10)
data.columns
data.index
data.shape
data.dtypes
data.info()
data.describe()
3. 操作dataframe
data.loc[data.index==173,:]
data.loc[data['columns_01'].isna(),:]
data.loc[data['columns_01'].notna(),:]
data.iloc[0:2,:]
tips[['columns_01','columns_02']]
data.loc[(data.columns_01>3) & (data.columns_02 == 'Sun'),['columns_03','columns_04']]
df1.loc[~(df1.columns_01.isin(list))]
df2['columns_01'].isin(list), ['columns_02 ', 'columns_03', 'columns_04']]
按行列排序
df.sort_index(axis=0,by='columns_01',ascending=True)#0代表列,1代表行,True升序
df.sort_values(by='columns_01', axis=0, ascending=True)
4. 数据清洗
# 删除
data.dropna()
data= data.drop('colu

本文介绍了pandas在Python数据分析中的重要性,并详细讲解了其基本操作,包括数据清洗和预处理等关键步骤。
最低0.47元/天 解锁文章
803

被折叠的 条评论
为什么被折叠?



