这篇应该是pandas最详细的用法了!没有之一!

本文详细介绍了Python数据分析库pandas的基础知识,包括Series的创建、修改索引、切片和索引,以及DataFrame的构造、索引、列操作。重点讲解了如何利用pandas处理和操作数据,如读取mongodb数据,并提到了数据排序方法sort_values()。此外,还涵盖了pandas中缺失数据的处理和读写文本文件的功能。虽然pandas没有内置的mongodb读取方法,但通过示例展示了如何实现。最后,强调了在实际工作中灵活运用pandas参数的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

介绍

在Python中,pandas是基于numpy数组构建的,使数据预处理、清洗、分析工作变得更快更简单。pandas是专门为处理表格和混杂数据设计的,而numpy更适合处理统一的数值数组数据。
使用下面格式约定,引入pandas包:import pandas as pd

pandas有两个主要数据结构:Series 和 DataFrame

一、Series(一维,带标签数组)

Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的 数据标签(即索引)组成,即index和values两部分,可以通过索引的方式选取Series中的单个或一组值。

1、Series的创建:


2、修改index:


3、用string方法,给index属性传递字母:


4、Series还可以用字典的格式来表示【dtype()查类型,astype()改类型】

 


5、Series切片和索引


6、Series的索引和值


7、用Series()方法读取mongodb数据【pandas没有自带获取mongodb的方法】

二、DataFrame(二维,Series容器)

DataFrame是一个表格型的数据类型,每列值类型可以不同,是最常用的pandas对象。
DataFrame既有行索引,也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。
DataFrame中的数据是以一个或多个二维块存放的(而不是列表、字典或别的一维数据结构)。

1、DataFrame的创建:


2、更改行、列索引


3、DataFrame还可以用字典的格式来表示


4、用DataFrame()方法读取mongodb数据【pandas没有自带获取mongodb的方法】


5、DataFrame的属性、用法 和 描述信息

 


》另外记住一个常用查询方法:sort_values()【用于对DataFrame数据进行排序】

df.sort_values(by="xxx", ascending=False) 	
# by参数传递“需要按照哪个列排序”;ascending参数表示升序或降序,True为升序,False为降序。
12

6、DataFrame取值、取索引
》 取值:


》① loc方法:


》 ② iloc方法:


7、DataFrame布尔索引

 

三、pandas中缺失数据的处理

 

四、pandas读写文本格式的数据

pandas提供了一些用于将表格型数据读取为DataFrame对象的函数。下表对它们进行了总结,其中read_csv()、read_table()、to_csv()是用得最多的。


工作中实际碰到的数据可能十分混乱,一些数据加载函数(尤其是read_csv)的参数非常多(read_csv有超过50个参数)。

完整教程视频点这里获取

 

当涉及到处理Excel数据时,PandasPython常用的库之一。它提供了强大的功能,可以方便地读取、处理和分析Excel数据。下面是一个综述,介绍了使用Pandas处理Excel数据的常见操作和技巧。 1. 导入Pandas库: 首先,你需要导入Pandas库。通常,我们使用`import pandas as pd`语句将其导入,并将其命名为`pd`,以便在后续代码中使用。 2. 读取Excel文件: 使用Pandas的`read_excel()`函数可以读取Excel文件。你只需要提供文件路径作为参数即可。例如,`df = pd.read_excel('data.xlsx')`会将Excel文件读取到名为`df`的DataFrame对象中。 3. 查看数据: 可以使用`head()`方法查看DataFrame的前几行数据,默认显示前5行。例如,`df.head()`会显示DataFrame的前5行数据。 4. 数据清洗和转换: 在处理Excel数据时,经常需要进行数据清洗和转换。Pandas提供了一系列方法来处理缺失值、重复值、异常值等。例如,使用`dropna()`方法可以删除包含缺失值的行或列,使用`fillna()`方法可以填充缺失值,使用`drop_duplicates()`方法可以删除重复值等。 5. 数据筛选和排序: 使用Pandas可以根据特定条件筛选数据,并对数据进行排序。你可以使用布尔索引来筛选数据,例如,`df[df['列名'] > 10]`将返回所有满足条件的行。使用`sort_values()`方法可以对数据进行排序,例如,`df.sort_values('列名', ascending=False)`将按照指定列的降序排序数据。 6. 数据分组和聚合: 使用Pandas的`groupby()`方法可以对数据进行分组,并使用聚合函数进行汇总。你可以根据某一列或多列进行分组,并应用各种聚合函数,如求和、平均值、计数等。例如,`df.groupby('列名')['另一列名'].sum()`将按照指定列对数据进行分组,并计算指定列的总和。 7. 数据可视化: Pandas还提供了与Matplotlib集成的绘图功能,可以方便地对数据进行可视化。你可以使用DataFrame的`plot()`方法绘制各种类型的图表,如折线图、柱状图、散点图等。例如,`df.plot(kind='bar', x='x轴数据列名', y='y轴数据列名')`会绘制一个柱状图。 以上是使用Pandas处理Excel数据的一些常见操作和技巧的综述。当然,Pandas还提供了许多其他功能和方法,适用于不同的数据处理需求。希望这个综述能对你在处理Excel数据时提供一些帮助!如果你需要更具体的示例或有其他问题,请随时提问。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值