使用IDEA读取hdfs和本机磁盘parqute文件遇到的路径规范问题

本文介绍使用Apache Spark读取本地及HDFS上的Parquet格式数据的方法,包括配置SparkSession,从不同路径读取数据并展示前10条记录,以及创建临时视图进行SQL查询。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

package org.Program1

import org.apache.spark.sql.{DataFrame, SparkSession}

/**
  * @ @description:
  * @ author: T-WHONG
  * @ create: 2019-04-12 09:49:17
  **/
object ObtainDataTest {
  def main(args: Array[String]): Unit = {
    val sparkSession = SparkSession.builder()
      .appName("ObtainDataTest")
      .master("local[2]")
      .getOrCreate()

    val localPath = "file:///E:/Programs/DProgram1\\actionlogtest"
    val hdfsPath = "hdfs://hadoop03:8020//program1/actionlogtest"

    val parquetDtat: DataFrame = sparkSession.read.parquet(localPath)
    parquetDtat.show(10)
    println("<------------------------------------------------------>")
    parquetDtat.createOrReplaceTempView("view")
    val ret = sparkSession.sql("select * from view limit 10")
    ret.show()
    sparkSession.stop()
  }

}

  1. 一般读取本机电脑磁盘文件(若默认为hdfs)则需要加file协议
    file:///E:/aa/bb\cc
  2. 若读取hdfs文件
    hdfs://hadoop03:8020/aa/bb\cc
  3. 除了协议后面跟的符号以外,在正式路径表示中\\等同于/
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值