转载1:https://www.jianshu.com/p/8fd4b48bf604
转载2:https://www.cnblogs.com/piaolingzxh/p/5469964.html
笔者在项目中发现,100万条记录,字段数100个左右时,原始数据为CSV文件,进行处理时,I5 cpu ,8G的内存需要1h,将其转化为Parquet文件,进行处理时,仅需十分钟。Parquet不愧是Spark计算的御用文件格式。
本文对比了使用CSV和Parquet文件格式在处理100万条记录时的效率,结果显示,将原始CSV文件转换为Parquet格式后,处理时间从1小时缩短至10分钟,Parquet文件格式显著提升了Spark计算的性能。
转载1:https://www.jianshu.com/p/8fd4b48bf604
转载2:https://www.cnblogs.com/piaolingzxh/p/5469964.html
笔者在项目中发现,100万条记录,字段数100个左右时,原始数据为CSV文件,进行处理时,I5 cpu ,8G的内存需要1h,将其转化为Parquet文件,进行处理时,仅需十分钟。Parquet不愧是Spark计算的御用文件格式。

被折叠的 条评论
为什么被折叠?