pandas笔记

本文详细介绍了Pandas在数据处理中的应用,包括读写数据、数据选取、创建新列、排序、信息查看、数据分组、数据分割、合并、缺失值处理和重复数据移除。还涉及到matplotlib绘图库的使用,如设置图表标题、绘制点和条形图等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

pandas是数据结构与数据分析工具
补:NAN not a number 表示一些特殊数值
作用:数据处理时,在实际工程中经常数据的缺失或者不完整,将缺失值设为NAN,

1.读取数据:

df = pd.read_csv(文件路径,delimiter = ‘,’,encoding = ‘utf8’,header=0)

2.写入数据

df.to_csv(路径,columns=[],index=False,header=True)
columns表示列,
index=False表示忽略索引信息,
index =True表示需要同时保存索引信息(输出文件的第一列保存索引值)

3.数据的选取

行的选取: row = df[0:3]选择0-2行
列的选取:cols = df.[[’’,’’]]列的名称
cols.head()用于显示数据框中前五行数据
块的选取: df.ix[0:3,[’’,’’]]选取列表名的0-2行

4.创建新的列并使用其他列赋值:

df[‘金额’] = df[‘单价’]* df[‘数量’]

5.将某列字段作为索引排序

df1 = df.set_index(’’)
df1 =df1.sort_index()

6.查看表的数据信息

df.info
查看表的描述性统计信息:df.describe()

7.数据分组:

group = df[‘lie1’].groupby(df[‘lie2’])
按lie2分组,访问lie1的值

8.数据分割

df1 = df[0:3][[‘lie1’,‘lie2’]]表示提取lie1和lie2中0-2行

9.数据合并

在这里插入图片描述
在这里插入图片描述

pa.merge(df1,df2)不指定列名,默认选择列名相同的列
pd.merge(df1,df2,on = ‘lie1’)指定列名,选择lie1
外连接表示将两个表合并时,使用所有的列,不存在的补上NaN
pd.merge(df1,df2,how=‘outer’)
在这里插入图片描述
内连接表示将两个表连接时,相当于填补具有相同第一列的后续值
pd.merge(df1,df2,how=‘inter’)
在这里插入图片描述
左连接表示补充df1中缺少的存在于df2中的列
pd.merge(df1,df2,how=‘left’)
在这里插入图片描述
右连接表示补充df2中缺少的存在于df1中的列
pd.merge(df1,df2,how=‘right’)
在这里插入图片描述
不涉及补充,左右合并起来
pd.merge(df1,df2,left_index=True,right_index=True)
同df1.join(df2)
在这里插入图片描述

10.缺失值处理

产看是否有缺失值:
df.isnull()
False表示没有,True表示有
df.dropna(axis=0)删除行,凡是有NaN的行均删除
使用字符代替缺失值

代码含义
df.fillna(‘missing’)使用前一个数据代替NaN
df.fillna(method=‘pad’)使用后一个数据代替NaN
df.fillna(method=‘bfill’,limit= )limit限制每列可以代替的NaN的数目
df.fillna(df.mean())使用平均值代替
11.移除重复数据

duplicated()返回一个bool行series,用以判断某行是否为重复行
duplicated().value_counts()用来返回重复的行数
drop_duplicates方法返回一个删除了重复行的DataFrame

matplotlib绘图库

axis轴
import matplotlib as mpl
import matplotlib.pyplot as plt
plt.title(’’)设置标题
plt.plot(x,y)绘制点
plt.xlabel(’’)横坐标的名
plt.ylabel(’’)纵坐标名
plt.show()显示
subplot()在同一张图上绘制不同的东西
建立subplot网格,高为2,宽为1
激活第一个subplot
plt.subplot(2,1,1)
绘制
plt.plot(x,y)

plt.abr()生成条形图
相关参数:
plt.bar(x,y,color,align=‘center’)
在这里插入图片描述

matplotlib动态图subplots()与subplot()的不同及其参数
fig,ax = subplots(nrows,ncols,sharex,sharey,squeeze,subplot_kw,gridspec_kw,** fig_kw)
nrow和ncol表示将画布分割成几行几列
sharex和sharey表示坐标轴的属性是否相同,可选的参数:True,False,row,col,默认为False表示画布中的四个ax是相互独立的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值