05丨Python科学计算:Pandas

本文深入探讨Pandas库中的核心数据结构Series和DataFrame,详解数据导入、清洗、处理及统计方法,涵盖drop、rename、astype等函数应用,以及数据表合并技巧,适合数据分析初学者及进阶者。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

知识清单:

  • 数据结构:
  1. Series和DataFrame这两个核心的数据结构,分别代表一维和二维的表结构。基于这两种数据结构可以对数据进行导入,清洗。处理,统计和输出。
  2. Series:Series是个定长的字典序列。两个基本属性:index和values。默认是0,1,2....当然也可以自己指定索引。
  • DataFrame:包括行索引和列索引,可以将DataFrame看成是由相同索引的Series组成的字典类型。具体见代码实现。
  • 数据导入和导出:可直接从xlsx和csv导入文件或导出成xlsx和csv等;库xlrd;openpyxl
  • 数据清洗:
  1. 删除DataFrame不必要的行或列drop()函数
  2. 重命名列名columns
  3. 去掉重复的值drop_duplicates()
  4. 格式问题astype()
  • 数据间空格:strip()去掉空格
  • 大小写转换:upper(),lower(),title()
  • 查找空值:isnull();isnull().any()
  • 使用apply对数据进行清洗:df['name'].apply(str.upper);
  • 数据统计:
  1. Pandas和Numpy一样遇到空值NaN就会自动排除。

  • 数据表的合并:
  1. 一个DataFrame是一个数据表多个DataFrame数据表的合并就相当于多个数据库的表的合并。
  2. 指定列的连接:eg:基于名字的连接;df3 = pd.merge(df1,df2,on='name')
  3. Inner连接:默认是merge基于名字
  4. left左连接:以第一个为主第二个为补充。df3=pd.merge(df1,df2,how='left')
  5. right右连接:以第二个为主第一个为补充。df3=pd.merge(df1,df2,how='right')
  6. outer连接:求两个DataFrame的并集
  • 也可以用SQL语句方式打开Pandas
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值