Spark运行任务时报错：org.apache.hadoop.hdfs.protocol.DSQuotaExceededException: The DiskSpace quota of...

冷漠；

已于 2022-11-01 11:16:47 修改

阅读量2.5k

点赞数 2

分类专栏： Hadoop spark # Hive 文章标签： hadoop hdfs spark hive

于 2022-07-26 17:13:04 首次发布

本文链接：https://blog.youkuaiyun.com/qq_45124566/article/details/125988853

版权

Hive 同时被 3 个专栏收录

13 篇文章

订阅专栏

spark

6 篇文章

订阅专栏

Hadoop

3 篇文章

订阅专栏

今天运行spark任务时，遇到一个错误，主要报错信息如下：

org.apache.spark.SparkException:Task failed while writing rows.
Caused by: org.apache.hadoop.hdfs.protocol.DSQuotaExceededException: The DiskSpace quota of /user/hive/warehouse/hive_test.db is exceeded: quota = 13194139533312 B = 12 TB but diskspace consumed = 13194919316682 B = 12.00 TB.

Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.protocol.DSQuotaExceededException): The DiskSpace quota of /user/hive/warehouse/hive_test.db is exceeded: quota = 13194139533312 B = 12 TB but diskspace consumed = 13194919316682 B = 12.00 TB.

Caused by: java.lang.IllegalArgumentException: Column has wrong number of index entries found: 0 expected: 17.

出现上述问题的原因是 HDFS 目录 /user/hive/warehouse/hive_test.db 没有足够的磁盘空间 quota，磁盘配额不够了，即磁盘已满或超出了用户所能使用的配额上限。

查看 HDFS 下 /user/hive/warehouse/hive_test.db文件大小：

[hadoop@hadoop102 ~]$ hadoop fs -du -s -h  /user/hive/warehouse/hive_test.db

查看 HDFS 下 /user/hive/warehouse/hive_test.db 文件中各个表所占空间大小：

[hadoop@hadoop102 ~]$ hadoop fs -du -s -h  /user/hive/warehouse/hive_test.db/*

可以根据具体的情况删除一些比较大，且没有用的表，或者删除一些分区，这样可以临时解决一些问题。

其实最主要的还是要增加磁盘容量：
可以使用 hadoop fs -count 来查看配置情况：

[hadoop@hadoop102 ~]$ hadoop fs -count -q -h /user/hive/warehouse/hive_test.db

以下是查询结果，none 和 inf 表示没有设置配额（默认情况下 HDFS 没有任何配置限制）

QUOTA  REMAINING_QUOTA  SPACE_QUOTA  REMAINING_SPACE_QUOTA  DIR_COUNT  FILE_COUNT   CONTENT_SIZE  FILE_NAME
none       inf              none             inf              6           15           14.7 K     /user/hive/warehouse/hive_test.db

上述依次表示为：文件数限额可用文件数空间限额可用空间目录数文件数总大小文件/目录名

在多人共用 HDFS 的环境下，配置设置非常重要。特别是在 Hadoop处理大量资料的环境，如果没有配额管理，很容易把所有的空间用完造成别人无法存取。HDFS 的配额设定是针对目标而不是针对账号，所以在管理上最好让每个账号仅操作某一个目录，然后对目录设置配置。

设置方法有两种：

Name Quotas：设置某一个目录下文件总数
Space Quotas：设置某一个目录下可使用空间大小

1. Name Quotas

计算公式：QUOTA – (DIR_COUNT + FILE_COUNT) = REMAINING_QUOTA
设置 Name Quota：

[hadoop@hadoop102 ~]$ hadoop dfsadmin -setQuota 10000 /user/hive/warehouse/hive_test.db

这里的 10000 是指 DIR_COUNT + FILE_COUNT = 10000，最大值為 Long.Max_Value 。

清除 Name Quota：

[hadoop@hadoop102 ~]$ hadoop dfsadmin -clrQuota /user/hive/warehouse/hive_test.db

2. Space Quotas

计算公式：SPACE_QUOTA – CONTENT_SIZE = REMAINING_SPACE_QUOTA
设置 Space Quota：

[hadoop@hadoop102 ~]$ hadoop dfsadmin -setSpaceQuota 1g /user/hive/warehouse/hive_test.db

可以使用 m，g，t 代表 MB，GB，TB

清除 Space Quota：

[hadoop@hadoop102 ~]$ hadoop dfsadmin -clrSpaceQuota /user/hive/warehouse/hive_test.db

这里需要特别注意的是"Space Quota" 的设置看的不是 HDFS 的文件大小，而是写入 HDFS 所有 block 块的大小，假设一个文件被切分为2个 block 块，在 core-site.xml 里面设置 dfs.block.size = 64MB，dfs.replication = 3，那么该文件所需要的存储空间为：2 * 64M * 3 = 384MB

如果一个小文件（例如，2k大小的文件）被上传到 HDFS，该文件并不能占满一整个 block 块，但是按照 HDFS 配置规则也需要按照一个 block 块计算，即存储空间为：1 x 64MB x 3 = 192MB

所以，综上所述，这里统计空间的时候会将 block 块的大小和备份数也考虑在里面。

3. 其它事项
HDFS 的配额管理是跟着目录走，如果目录被重命名，配额依然有效。

麻烦的是，在设置完配额以后，如果超过限制，虽然文件不会写入到 HDFS，但是文件名依然会存在，只是文件 size 为0。当加大配额设置后，还需要将之前的空文件删除才能进一步写入。

如果新设置的 quota 值，小于该目录现有的 Name Quotas 及 Space Quotas，系统并不会给出错误提示，但是该目录的配置会变成最新设置的 quota。

如果查询的配额没满的话，那么就是磁盘空间满了，挂载新的磁盘空间就可以了。

了解磁盘配额（Quota）：磁盘配额（Quota）