使用IDEA读取hdfs和本机磁盘parqute文件遇到的路径规范问题

最新推荐文章于 2025-05-21 16:21:03 发布

T-whong

最新推荐文章于 2025-05-21 16:21:03 发布

阅读量498

点赞数 2

本文链接：https://blog.youkuaiyun.com/weixin_44361296/article/details/89248606

版权

本文介绍使用Apache Spark读取本地及HDFS上的Parquet格式数据的方法，包括配置SparkSession，从不同路径读取数据并展示前10条记录，以及创建临时视图进行SQL查询。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

package org.Program1

import org.apache.spark.sql.{DataFrame, SparkSession}

/**
  * @ @description:
  * @ author: T-WHONG
  * @ create: 2019-04-12 09:49:17
  **/
object ObtainDataTest {
  def main(args: Array[String]): Unit = {
    val sparkSession = SparkSession.builder()
      .appName("ObtainDataTest")
      .master("local[2]")
      .getOrCreate()

    val localPath = "file:///E:/Programs/DProgram1\\actionlogtest"
    val hdfsPath = "hdfs://hadoop03:8020//program1/actionlogtest"

    val parquetDtat: DataFrame = sparkSession.read.parquet(localPath)
    parquetDtat.show(10)
    println("<------------------------------------------------------>")
    parquetDtat.createOrReplaceTempView("view")
    val ret = sparkSession.sql("select * from view limit 10")
    ret.show()
    sparkSession.stop()
  }

}