我从8月中旬开始自学接口测试进阶自动化以来关于自动化测试的第一篇正式推文,把我的学习笔记分享给大家,一起成长一起进步吼。
话不多说,学习干货都在下面啦!
一、Pandas介绍
-
Pandas简介
Pandas是一个开源的Python库,用于数据处理和数据分析。它提供了高性能、易于使用的数据结构和数据分析工具,使数据的导入、清理、处理、分析和可视化变得更加容易。Pandas的主要功能包括:
1)数据结构
- Pandas引入了两种主要的数据结构,分别是DataFrame和Series。DataFrame类似于一个二维表格,可以存储和操作各种数据类型的数据。Series则类似于一维数组或列表,是DataFrame的列。
2)数据导入和导出
- Pandas支持从各种数据源中导入数据,如CSV、Excel、SQL数据库、JSON、HTML等,同时也可以将处理后的数据导出为不同格式的文件。
3)数据清洗
- Pandas提供了强大的数据清洗工具,可以处理缺失值、重复数据、异常值等。
4)数据选择和索引
- 可以使用Pandas轻松选择和过滤数据,通过标签或位置进行索引,还可以执行各种数据选择操作。
5)数据转换和处理
- Pandas支持各种数据转换和处理操作,如排序、合并、分组、透视表、逐行/逐列应用函数等。
6)数据分析和统计
- 提供了丰富的统计分析功能,包括均值、中位数、标准差、相关性、回归分析等。
7)时间序列分析
- Pandas对于时间序列数据的处理非常强大,可以进行日期和时间的解析、频率转换、滚动统计等。
8)数据可视化
- 可以集成Matplotlib等可视化库,将数据可视化为图表、图形和图像。
9)合并和连接数据
- Pandas支持合并和连接不同数据集,包括数据库风格的合并、连接操作。
10)数据透视和重塑
- 可以根据需要对数据进行透视、堆叠和重塑,以满足分析和报告的要求。
11)数据输入和输出
- 支持将数据保存到各种文件格式中,如CSV、Excel、SQL数据库、JSON等,以及从这些格式中读取数据。
Pandas被广泛用于数据科学、数据分析、机器学习和数据处理任务,因为它提供了一种高效、方便的方式来处理和分析数据,使用户能够更容易地探索和理解数据。
-
其他数据处理和分析库
库名称 |
描述和特点 |
NumPy |
NumPy是Python的一个重要库,用于高性能数值计算。它提供了多维数组(ndarray)和各种数学函数,适用于数据处理、线性代数、傅立叶变换等任务。Pandas的数据结构部分受到了NumPy的启发。 |
Dask |
Dask是用于分布式计算的灵活库,它能够处理比内存更大的数据集。它提供了类似于Pandas的DataFrame和Series,但可以处理大规模数据,并充分利用多核处理和分布式计算。 |
Vaex |
Vaex是一种快速、内存高效的数据分析库,专注于大规模数据集的处理。它使用延迟计算和列式存储来实现高性能的数据操作,尤其适用于数据集太大而无法装入内存的情况。 |
Modin |
Modin是一个用于Pandas的并行化扩展,它通过利用多核CPU来加速Pandas操作。Modin的API与Pandas兼容,因此可以轻松将现有的Pandas代码迁移到Modin以获得更好的性能。 |
Polars |
Polars是一个快速数据操作库,与Pandas和Rust语言紧密集成。它支持多线程计算,具有低内存占用,并且可以处理大规模数据集。Polars的语法类似于Pandas,易于学习和使用。 |
Koalas (Databricks) |
Koalas是由Databricks开发的库,它为Pandas添加了分布式计算的功能,使用户可以在大数据集上使用Pandas的API。Koalas使用Apache Spark作为后端引擎,支持大规模数据处理。 |
datatable |
datatable是用于高 |