Spark 使用 parquet 列式存储格式优化速度

Parquet作为大数据时代的首选存储格式,提供了显著的速度提升。相较于CSV等普通文件,Spark SQL操作Parquet文件的速度平均提高约10倍,并在处理大文件时避免了内存和磁盘I/O问题。Parquet的压缩技术稳定,能减少75%的存储空间,且在Spark 1.6x及以上版本中,通过下推过滤器和优化的CPU使用,进一步提高了数据扫描吞吐量和查找速度,减少了Stage执行消耗,优化了执行路径。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1)如果说 HDFS 是大数据时代分布式文件系统首选标准,那么 parquet 则是整个大数据时代文件存储格式实时首选标准。

2)速度更快:从使用 spark sql 操作普通文件 CSV 和 parquet 文件速度对比上看,绝大多数情况会比使用 csv 等普通文件速度提升10倍左右,在一些普通文件系统无法在 spark上成功运行的情况下,使用 parquet 很多时候可以成功运行。

3)parquet 的压缩技术非常稳定出色,在 spark sql 中对压缩技术的处理可能无法正常的完成工作(例如会导致 lost task,lost executor)但是此时如果使用 parquet 就可以正常的完成。

4)极大的减少磁盘 I/O,通常情况下能够减少75%的存储空间,由此可以极大的减少 spark sql 处理数据的时候的数据输入内容,尤其是在 spark1.6x 之后版本的下推过滤器在一些情况下可以极大的减少磁盘的 I/O 和内存的占用(下推过滤器)。

5)从 spark 1.6x 开始的 parquet 方式极大的提升了扫描的吞吐量,极大提高了数据的查找速度 spark1.6 和 spark1.5x 相比而言,提升了大约1倍的速度,在 spark1.6X 中,操作 parquet 的时候 cpu 也进行了极大的优化,有效的降低了cpu 消耗。

6)采用 parquet 可以极大的优化 spark 的调度和执行。我们测试 spark 如果用 parquet 可以有效的减少 stage 的执行消耗,同时可以优化执行路径。

Parquet文件格式

Parquet文件是以二进制方式存储的,所以是不可以直接读取的,文件中包括该文件的数据和元数据,因此Parquet格式文件是自解析的。在HDFS文件系统和Parquet文件中

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值