19、Spark SQL与Parquet及Hive的集成应用

lambda

于 2025-10-26 14:26:41 发布

阅读量13

点赞数

CC 4.0 BY-SA版权

分类专栏：实时大数据分析实战文章标签： Spark SQL Parquet Hive

本文链接：https://blog.youkuaiyun.com/lambda/article/details/154161685

实时大数据分析实战专栏收录该内容

24 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

Spark SQL与Parquet及Hive的集成应用

1. 处理Parquet数据格式

1.1 Parquet简介

Parquet是一种流行的列式数据存储格式，用于存储结构化数据。它采用了记录分解和组装算法，支持高效的压缩和编码方案，比简单的结构化表扁平化存储更优。Spark SQL的DataFrame API为读写Parquet格式数据提供了便捷操作。

1.2 读写芝加哥犯罪数据为Parquet格式的步骤

打开Spark - Examples项目，创建新包和名为 chapter.eight.ScalaRDDToParquet.scala 的Scala对象。
编辑 ScalaRDDToParquet.scala ，在包声明下方添加以下代码：

import org.apache.spark.sql._
import org.apache.spark._
import org.apache.spark.sql.hive._
/**
 * Reading and Writing Parquet Formats using SQLContext and 
HiveContext
 */
object ScalaRDDToParquet {

  /**
   * Main Method
   */
  def main(args:Array[String]){

    //Defining/ Creating SparkConf Object
    val conf