PySpark的Pandas API on Spark内部使用PyArrow实现高性能

LisaHusband

已于 2025-02-21 02:22:00 修改

阅读量457

点赞数 3

文章标签： pandas spark 大数据

于 2025-02-21 02:18:20 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_49526058/article/details/145767382

版权

PySpark的Pandas API on Spark（即pyspark.pandas）通过结合Spark和Pandas的优势，使得用户能够以Pandas风格操作大规模分布式数据。为了实现高性能的数据操作，pandas-on-Spark（之前称为koalas）在底层使用了PyArrow。

什么是PyArrow？

PyArrow是Apache Arrow的Python接口，它是一个跨语言的列式内存格式，主要用于高效的数据交换。Arrow设计的目的是消除不同数据处理工具之间的内存复制和格式转换，使得数据可以在不同的系统和工具之间高效传递。它可以在内存中表示数据，并能够高效地序列化和反序列化。

为什么Pandas API on Spark使用PyArrow？

高效的内存表示和序列化：
PyArrow允许数据以列式存储，这比传统的行式存储（如Python原生的list或dict）更高效。列式存储便于进行向量化的操作，可以充分利用CPU的并行处理能力。
跨语言的数据交换：
PyArrow的内存格式与Spark的内部格式（例如Parquet）兼容，可以高效地在Spark和Pandas之间传递数据。使用PyArrow作为中间层，Pandas DataFrame和Spark DataFrame之间的数据交换可以避免数据在内存中被频繁复制，从而提高性能。
与Pandas兼容：
Pandas的操作是基于NumPy数组的，这种数组存储方式不适合直接在Spark的分布式环境中进行大规模计算。通过使用PyArrow，Pandas API on Spark能够在Spark集群上执行分布式计算时，保留Pandas的API和功能，同时避免了传统的分布式计算框架中对数据转换的低效实现。

PyArrow在Pandas API on Spark中的应用

分布式计算支持：
PyArrow使得Pandas API on Spark能够在分布式计算环境下运行Pandas的API，数据在各个节点之间通过Arrow进行高效交换，而无需频繁的序列化和反序列化。
列式存储：
PyArrow以列式内存格式表示数据，这对很多数据处理任务（如聚合、过滤、排序等）非常有利。通过这种方式，Pandas API on Spark能够在分布式环境中进行高效的向量化操作。
优化的数据传输：
当从Spark转换为Pandas DataFrame或从Pandas转换为Spark DataFrame时，PyArrow将数据高效地序列化和传输，避免了传统序列化格式（如JSON、Pickle等）的性能瓶颈。

总结

PySpark的Pandas API on Spark利用PyArrow的高效内存格式和数据传输特性，实现了Pandas风格的数据操作，同时在Spark的分布式环境下提供了高性能的数据处理。PyArrow的列式存储和高效的数据交换减少了内存复制和序列化的开销，使得数据操作更加快速和高效。

P/S：

依稀记得在pyspark的早期版本中，如果使用pandas on spark相关的api是需要单独引入pandas和pyarrow库的，当时还专门查了官网相关的文档。后来和同行在群里讨论df的pandas相关的问题，说了下内部实现，结果还被人家不理解看不起背地嘲讽，可能是觉得我在卖弄吧，哈哈哈，那是我的来时路。