
Parquet
zerone-f
这个作者很懒,什么都没留下…
展开
-
第62课:Spark SQL下的Parquet使用最佳实践和代码实战
内容 1.SparkSQL下的Parquet使用最佳实践 2.SparkSQL下的Parquet实战 一、SparkSQL下的Parquet使用最佳实践 1.过去整个业界对大数据的分析的技术栈的pipeline一般分为两种方式: a)Data Source->HDFS->MR/Hive/Spark(相当于ETL)->HDFS Par...原创 2018-11-01 00:01:59 · 450 阅读 · 0 评论 -
解决spark-shell中java.lang.UnsatisfiedLinkError: org.xerial.snappy.SnappyNative.maxCompressedLength(I)I
在运行Schema Merging示例代码的时候遇到问题以及解决: 1.示例代码: // This is used to implicitly convert an RDD to a DataFrame. import spark.implicits._ // Create a simple DataFrame, store into a partition directory val s...原创 2018-11-06 11:44:04 · 2039 阅读 · 0 评论 -
第64课:Spark SQL下Parquet的数据切分和压缩内幕详解
内容: 1.SparkSQL下的Parquet数据切分 2.SparkSQL下的Parquet数据压缩 一、SparkSQL下的Parquet数据切分 Table partitioning (表分区)是在像 Hive 这样的系统中使用的常见的优化方法. 在 partitioned table (分区表)中, 数据通常存储在不同的目录中, partitioning co...原创 2018-11-06 19:23:59 · 2069 阅读 · 0 评论 -
第65课:Spark SQL下Parquet深入进阶
内容: Spark SQl下的Parquet的序列化 SparkSQL下的Parquet源码解析 SparkSQL的Parquet总结 一、Spark SQl下的Parquet的序列化 1.block:parquet层面和row group是一个意思 2.row group:逻辑概念,用于对row进行分区。由数据集中每个column的column ch...原创 2018-11-07 20:45:59 · 531 阅读 · 0 评论 -
第66课:Spark SQL下Parquet中PushDown的实现
内容: 1.SparkSQL下的PushDown的价值 2.SparkSQL下的Parquet下的pushDown的实现 一、SparkSQL下的PushDown的价值 1.假设通过DataFrame,df.select(a,b,c).filter(by a).filter(by b).select(c).filter(by c)这样的查询,在optimizer阶段,...原创 2018-11-07 22:52:32 · 381 阅读 · 0 评论 -
第63课:Spark SQL下Parquet内幕深度解密
内容: 1.SparkSQL下的Parquet意义再思考 2.SparkSQL下的Parquet内幕解密 一、SparkSQL下的Parquet意义再思考 1.如果说HDFS是大数据时代分布式文件系统存储的事实标准的话,Parquet是大数据时代的文件存储格式的事实标准; 2.速度更快:从使用SparkSQL操作普通文件CSV和Parquet文件的速度对比来看...原创 2018-11-05 16:46:05 · 313 阅读 · 0 评论