Spark SQL与Parquet及Hive的集成应用
1. 处理Parquet数据格式
1.1 Parquet简介
Parquet是一种流行的列式数据存储格式,用于存储结构化数据。它采用了记录分解和组装算法,支持高效的压缩和编码方案,比简单的结构化表扁平化存储更优。Spark SQL的DataFrame API为读写Parquet格式数据提供了便捷操作。
1.2 读写芝加哥犯罪数据为Parquet格式的步骤
- 打开Spark - Examples项目,创建新包和名为
chapter.eight.ScalaRDDToParquet.scala的Scala对象。 - 编辑
ScalaRDDToParquet.scala,在包声明下方添加以下代码:
import org.apache.spark.sql._
import org.apache.spark._
import org.apache.spark.sql.hive._
/**
* Reading and Writing Parquet Formats using SQLContext and
HiveContext
*/
object ScalaRDDToParquet {
/**
* Main Method
*/
def main(args:Array[String]){
//Defining/ Creating SparkConf Object
val conf
超级会员免费看
订阅专栏 解锁全文
1223

被折叠的 条评论
为什么被折叠?



