StructredStreaming读取HDFS文件夹示例

最新推荐文章于 2025-05-12 13:59:36 发布

大霖技术进阶

最新推荐文章于 2025-05-12 13:59:36 发布

阅读量247

点赞数 1

分类专栏：大数据

本文链接：https://blog.youkuaiyun.com/qq_39570355/article/details/117607701

版权

SparkSession 结构化流处理 CSV HDFS Scala

关键词由优快云通过智能技术生成

大数据专栏收录该内容

6 篇文章

订阅专栏

package com.itcast.sql

import org.apache.spark.sql.types.{DataType, DoubleType, IntegerType, StringType, StructField, StructType}
import org.apache.spark.sql.{DataFrame, SparkSession}

object StructredStreaming {

  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("structrued streaming")
      .master("local[6]")
      .getOrCreate()

    val schema =  StructType(
      Array(StructField("id", IntegerType),
        StructField("name", StringType),
        StructField("course_count", IntegerType),
        StructField("score", DoubleType))
    )

    //setLogLevel
    spark.sparkContext.setLogLevel("error")

    val readDF: DataFrame = spark.readStream
      .schema(schema)
      .csv("hdfs://hadoop100:8020/data/")

    readDF.writeStream
      .format("console")
      .start()
      .awaitTermination()

    spark.stop()
  }


}