什么时候会用到 Parquet ?

- 在 ETL 中, Spark 经常扮演 T 的职务, 也就是进行数据清洗和数据转换.
- 为了能够保存比较复杂的数据, 并且保证性能和压缩率, 通常使用 Parquet 是一个比较不错的选择.
- 所以外部系统收集过来的数据, 有可能会使用 Parquet, 而 Spark 进行读取和转换的时候, 就需要支持对 Parquet 格式的文件的支持.
使用代码读写 Parquet 文件
默认不指定 format 的时候, 默认就是读写 Parquet 格式的文件
import org.apache.spark.sql.
本文介绍了在ETL过程中Spark如何利用Parquet进行数据读写。默认情况下,Spark能自动识别Parquet格式,并支持在写入时设置分区。在读取Parquet文件时,Spark能自动发现分区信息并将它们作为DataFrame的列。通过实例展示了如何读取和操作Parquet分区数据。
订阅专栏 解锁全文
7492

被折叠的 条评论
为什么被折叠?



