Spark读取结构化数据

最新推荐文章于 2024-07-23 17:55:22 发布

原创

最新推荐文章于 2024-07-23 17:55:22 发布 · 1k 阅读

2 ·

CC 4.0 BY-SA版权

本文介绍了如何使用Spark从本地CSV、HDFS以及Hive读取结构化数据，并转化为DataFrame进行分析。详细讲解了读取本地CSV时设置选项，如header和delimiter，以及通过SparkSession执行Hive查询和HDFS数据的读取方法，强调了HDFS中获取表头的注意事项。

读取结构化数据

Spark可以从本地CSV，HDFS以及Hive读取结构化数据，直接解析为DataFrame，进行后续分析。

读取本地CSV

需要指定一些选项，比如留header，比如指定delimiter值，用，或者\t或者其他。

import org.apache.spark.sql.{DataFrame, SparkSession}

object ReadCSV {
  val spark: SparkSession = SparkSession
    .builder()
    .appName("Spark Rocks")
    .master("local[*]")
    .getOrCreate()

  val path: String = "/path/to/file/data.csv"
  val df: DataFrame = spark.read
    .option("header","true")
    .option("inferSchema","true")
    .option("delimiter",",")
    .csv(path)
    .toDF()

  def main(args: Array[String]): Unit = {
    df.show()
    df.printSchema()
  }
}

读取Hive数据

SparkSession可以直接调用sql方法，传入sql查询语句即可。返回的DataFrame可以做简单的变化，比如转换
数据类型，对重命名之类。

import org.apache.spark.sql.{DataFrame, SparkSession}
import org.apache.spark.sql.types.IntegerType

object ReadHive {
  val spark: SparkSession = SparkSession