spark读取hdfs的权限异常

在使用Spark连接HDFS时,由于本机用户名与服务器文件所属用户名不同,出现了权限被拒绝的异常。错误堆栈显示为AccessControlException。解决方法包括修改文件权限或所属用户,这里采用后者,在程序中通过设置HDFS用户名来避免权限问题。

hdfs本身是没有身份认证的,但是为了防止用户误操作,它也有类似linux的文件权限限制

我在IDE里开发程序连接hdfs因为本机名和服务器的文件所属用户名不同导致没有读取权限,错误异常堆栈如下:

Exception in thread "main" org.apache.hadoop.security.AccessControlException: Permission denied: user=shadow, access=EXECUTE, inode="/user/bduser/zongyh/hdfs_hive.csv":bduser:supergroup:drwx------
    at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.check(FSPermissionChecker.java:319)
    at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkTraverse(FSPermissionChecker.java:259)
    at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:205)
    at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:190)
    at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkPermission(FSDirectory.java:1728)
    at org.apache.hadoo

在 Apache Spark 中,`spark.sql` 是 Spark SQL 模块的一部分,用于处理结构化数据(如 Parquet、JSON、CSV 等格式)。它可以通过 `DataFrame` 或 `SQL` 接口读取 HDFS 上的数据。下面是 **Spark SQL 读取 HDFS 数据的完整流程**,包括配置、读取、处理和输出等步骤。 --- ## ✅ 一、基本流程概述 1. **初始化 SparkSession** 2. **配置 Hadoop 文件系统(HDFS)连接参数** 3. **读取 HDFS 上的结构化数据文件(如 Parquet、CSV、JSON)** 4. **使用 DataFrame 或 SQL 对数据进行处理** 5. **输出结果或写回 HDFS** --- ## ✅ 二、完整代码示例(以 Parquet 为例) ```python from pyspark.sql import SparkSession # 1. 创建 SparkSession spark = SparkSession.builder \ .appName("Read HDFS Data") \ .getOrCreate() # 2. 读取 HDFS 上的 Parquet 文件 df = spark.read.parquet("hdfs://namenode:8020/user/hadoop/input/data.parquet") # 3. 显示数据结构和内容 df.printSchema() df.show() # 4. 使用 DataFrame API 进行操作(例如筛选) filtered_df = df.filter(df["age"] > 30) # 5. 使用 SQL 查询(需先注册为临时视图) df.createOrReplaceTempView("people") sql_df = spark.sql("SELECT * FROM people WHERE age > 30") sql_df.show() # 6. 将结果写回 HDFS filtered_df.write.parquet("hdfs://namenode:8020/user/hadoop/output/result.parquet") # 7. 停止 SparkSession spark.stop() ``` --- ## ✅ 三、读取不同格式的 HDFS 数据 | 文件格式 | Spark SQL 读取方式 | |----------|---------------------| | Parquet | `spark.read.parquet(path)` | | CSV | `spark.read.csv(path, header=True, inferSchema=True)` | | JSON | `spark.read.json(path)` | | ORC | `spark.read.orc(path)` | | Avro | 需要额外依赖:`spark.read.format("avro").load(path)` | --- ## ✅ 四、HDFS 配置注意事项 1. **Hadoop 集群配置**:确保 Spark 节点能够访问 Hadoop 集群的 `core-site.xml` 和 `hdfs-site.xml`,通常放在 `SPARK_HOME/conf/` 或通过 `--conf` 传入。 2. **HDFS 地址格式**:路径应以 `hdfs://namenode:8020/path` 格式书写。 3. **权限问题**:确保运行 Spark 应用的用户有权限访问 HDFS 路径。 --- ## ✅ 五、Spark SQL 与 HDFS 交互的完整流程图解(文字描述) ``` [Spark Driver] ↓ 初始化 SparkSession ↓ 配置 Hadoop 连接参数(可选) ↓ 调用 spark.read.xxx(...) 读取 HDFS 数据 ↓ 返回 DataFrame(逻辑计划) ↓ 调用 show(), count(), write() 等 action 操作 ↓ 生成物理执行计划并执行(Spark Executor 读取 HDFS 分片) ↓ 处理数据(过滤、聚合、转换) ↓ 将结果输出到控制台或写入 HDFS ``` --- ## ✅ 六、常见问题排查 - **报错:UnknownHostException**:检查 HDFS 的 Namenode 地址是否正确,DNS 是否能解析。 - **报错:File does not exist**:检查 HDFS 路径是否正确,文件是否存在。 - **报错:Permission denied**:检查运行 Spark 的用户是否有权限访问 HDFS。 - **性能问题**:Parquet/ORC 等列式存储格式读取效率更高;使用分区表可加速查询。 --- ##
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值