熟练掌握pandas的各种操作

最新推荐文章于 2025-05-10 16:56:32 发布

原创

最新推荐文章于 2025-05-10 16:56:32 发布 · 置顶 · 1.1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#pandas #数据清洗 #预处理

本文介绍了pandas在Python数据分析中的重要性，并详细讲解了其基本操作，包括数据清洗和预处理等关键步骤。

pandas是python里面一款非常优秀的做数据分析与挖掘的包，也是所有的数据分析和挖掘从业人员最需要掌握的基本包

下面介绍pandas的基本操作

import pandas as pd
import numpy as np

1. 读取数据
# 具体参数在spyder可以快捷键ctrl+i,在jupyter notebook可以快捷键shift+tab
data=pd.read_excel()
data=pd.read_csv()
# txt文件
data=pd.read_table()

2. 查看表信息
# 查看前面和后面部分数据
data.head(10)
data.tail(10)
data.columns
data.index
data.shape
data.dtypes
data.info()
data.describe()

3. 操作dataframe
data.loc[data.index==173,:]
data.loc[data['columns_01'].isna(),:]
data.loc[data['columns_01'].notna(),:]
data.iloc[0:2,:]
tips[['columns_01','columns_02']]
data.loc[(data.columns_01>3) & (data.columns_02 == 'Sun'),['columns_03','columns_04']]
df1.loc[~(df1.columns_01.isin(list))]
df2['columns_01'].isin(list), ['columns_02 ', 'columns_03', 'columns_04']]
按行列排序
df.sort_index(axis=0,by='columns_01',ascending=True)#0代表列，1代表行，True升序
df.sort_values(by='columns_01', axis=0, ascending=True)


4. 数据清洗
# 删除
data.dropna()
data= data.drop('colu