统计HDFS上Hive数据库表文件大小的方法

最新推荐文章于 2024-05-05 12:03:05 发布

YbDocker

最新推荐文章于 2024-05-05 12:03:05 发布

阅读量806

点赞数

CC 4.0 BY-SA版权

文章标签： hdfs hive 数据库大数据

本文链接：https://blog.youkuaiyun.com/YbDocker/article/details/133113426

大数据专栏收录该内容

81 篇文章 ¥59.90 ¥99.00

订阅专栏

本文介绍了在大数据环境中，如何使用Hadoop命令行工具和Hive查询语句来统计HDFS上Hive数据库表的文件大小。通过替换特定数据库和表名，可以获取文件列表、文件大小总和以及查询文件大小总和。这些方法有助于管理和监控Hive表的数据存储。

在大数据环境中，Hive是一个常用的数据仓库工具，用于处理和分析大规模的结构化数据。在Hive中，数据存储在Hadoop分布式文件系统（HDFS）上的表中。对于管理和监控数据存储的需求，了解每个表的文件大小是非常重要的。本文将介绍如何使用Hadoop命令和Hive查询来统计HDFS上Hive数据库表的文件大小。

使用Hadoop命令行工具获取表的文件列表

首先，我们可以使用Hadoop的命令行工具来获取表的文件列表。打开终端并执行以下命令：

hadoop fs -ls /user/hive/warehouse/<database_name>.db/<table_name>

请将<database_name>替换为您的数据库名称，<table_name>替换为您要统计文件大小的表名。该命令将列出HDFS上该表的所有文件及其详细信息。

使用Hadoop命令行工具计算文件大小总和

如果您只需要获取表的文件大小总和，可以使用Hadoop命令行工具的-du选项。执行以下命令：

hadoop fs -du -s /user/hive/warehouse/<database_name>.db/<table_name>

同样，将<database_name>和<table_name>替换为您

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

YbDocker

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

统计Hadoop分布式文件系统（HDFS）上Hive数据库表文件大小的方法

2301_79366435的博客

08-15

244

在大数据环境中，Hadoop分布式文件系统（HDFS）被广泛应用，而Hive作为Hadoop生态系统中的数据仓库工具，提供了高效的数据存储和查询功能。在使用Hive进行数据分析和处理时，了解Hive数据库表的文件大小是非常有用的信息。通过连接到Hive元数据和HDFS，获取表的文件路径，并使用Hadoop的。连接到Hive元数据后，我们需要获取Hive数据库表对应的HDFS文件路径。获取到HDFS上Hive数据库表的文件路径后，我们可以使用Hadoop的。是要统计文件大小的Hive数据库和表的名称。

统计HDFS上Hive数据库表文件大小及数据历史范围

zhengzaifeidelushang的博客

09-07

1052

一、获取Hive表名、HDFS路径、时间字段、分区信息、分区时间 from pyspark.sql.types import StructType, StructField, LongType, StringType,DoubleType from pyspark.sql import SparkSession spark = SparkSession.builder.appName("DataFrame").getOrCreate() table_dict ={} #hive表名存放到列表中 ta

参与评论您还未登录，请先登录后发表或查看评论

hdfs查看目录文件的大小 hdfs dfs -du -s -h /

Aying_seeyou的博客

11-23

3万+

1.hdfs dfs -du -h 查看各级文件大小 会出现两列数字，第一列为单个文件实际大小，第二列为备份大小。 2.hdfs dfs -ls -h 也可以查看文件大小 但是当子文件目录过多时统计的大小为0 3.命令 hdfs dfs -du -s -h /user/hive/warehouse/ 结果 97.1 G 291.3 G /user/hive/warehouse 第一列标示该目录下总文件大小 第二列标示该目录下所有文件在集群上的总存储大小和你的副本数相关，我的副本数是3 ，所以第二列的

【hdfs命令】查看表的存储大小

追忆不如抓住当下

06-15

6146

查看表的大小通常的方法是hdfs dfs -du -h, 但统计的是子目录的大小，如： hdfs dfs -du -h /user/hive/warehouse/tmp.db/xxx 555.7 G 1.6 T /user/hive/warehouse/tmp.db/xxx/data_date=20200610 556.2 G 1.6 T /user/hive/warehouse/tmp.db/xxxt/data_date=20200611 其实我们需要统计当前目录的大小时可加入 -s

统计HDFS上Hive数据库表文件大小

zhengzaifeidelushang的博客

08-27

2736

统计HDFS上Hive数据库表文件大小

查看hdfs上某个表目录下文件的大小

硅谷工具人

06-21

1257

hdfs dfs -du -s -h /user/hive/warehouse/xy_ods.db/ods_test/pk_year=2021/pk_month=2021-12/pk_day=2021-12-30 如果需要截取前面的文件大小413.0G,还需要添加截取功能。 hdfs dfs -du -s -h /user/hive/warehouse/xy_ods.db/ods_test/p...

统计Hive表占用空间大小

寂寞的博客

06-20

6939

首先，Hive的数据是存在HDFS上的，统计Hive表大小就算统计文件的大小。虽然在Hive的管理界面可以看到HDFS文件占用的整体大小，但如何查看每张表占用的空间呢？几经搜索，没有发现hive现成的命令，于是，动手撸一个出来吧。基于python实现下面这部分代码是非常低效的，因为对hive命令不了解，所以走了弯路，但实际上是可行的，20T的文件，共一百多张表，用41个线程跑了2小时才跑完。核心就是：hadoop fs -ls /path # hadoop fs -ls /user/hive/wa

hive查看表数据大小

qq_43341418的博客

01-31

750

会显示字段名，totalSize就是数据库里表数据大小，单位为B，在计算时，要除以1024。

通过java api统计hive库下的所有表的文件个数、文件大小

weixin_33675507的博客

12-21

1204

更新hadoop fs 命令实现： [ss@db csv]$ hadoop fs -count /my_rc/my_hive_db/* 18/01/14 15:40:19 INFO hdfs.PeerCache: SocketCache disabled. 3 2 0 /my_rc/my_hive_db/.hi...

hive库表占用空间大小的命令

weixin_42115825的博客

03-14

2135

3、查某一个分区占用空间大小（单位G)4、查某一个表总占用空间大小（单位G）1、查每个hive表占用的空间大小。5、统计hdfs某个表文件的数据量。2、按占用空间大小降序排列。

查数据库中所有表大小

10-22

查数据库单个表大小查数据库所有表大小

hive 查看一个表的总文件大小方法

duncan

11-12

3879

要查看一个hive表文件总大小时，我们可以通过一行脚本快速实现，其命令如下： $ hadoop fs -ls /user/hive/warehouse/test_table/ds=20151111|awk -F ' ' '{print $5}'|awk '{a+=$1}END{print a}' 32347122009 这样可以省去自己相加，下面命令是列出该表的详细文件列表...

hdfs查看各级目录文件的大小

热门推荐

u012562302的博客

10-24

4万+

1.hadoop dfs -du -h 查看各级文件大小 会出现两列数字，第一列为单个文件实际大小，第二列为备份大小。 2.hadoop dfs -ls -h也可以查看文件大小 但是当子文件目录过多时统计的大小为0

Hive下查看表占用空间大小的方法

helloxiaozhe的博客

05-18

4万+

一、Hive下查看数据表信息的方法方法1：查看表的字段信息desc table_name;方法2：查看表的字段信息及元数据存储路径desc extended table_name;方法3：查看表的字段信息及元数据存储路径desc formatted table_name;备注：查看表元数据存储路径是，推荐方法3，信息比较清晰。hive> desc parquet; OK member_id ...

hdfs使用命令行查看总容量和使用量

qq_26432153的博客

05-05

780

hdfs使用命令行查看总容量和使用量

大数据HDFS集群运维之小文件统计

weixin_51100441的博客

02-25

770

随着公司集群规模越来越大，数据增长越来越快，文件Size比HDFS的Block Size（默认128MB）小的多的文件，小文件治理也迫在眉睫。目前采用离线分析Namenode元数据的方式进行统计分析。提示：以下是本篇文章正文内容，下面案例可供参考使用Fsimage文件可以获取到HDFS的文件情况，使用sql进行统计分析能获取到集群文件使用情况，具体看业务需要，运维人员也方便对现HDFS集群做出更好的判断。

Hive中文件存储格式及大小比较测试

a52654的博客

07-17

402

在hive中创建表是有如下一个语句 [ROW FORMAT row_format] row_format 的类型有如下： file_format: : SEQUENCEFILE | TEXTFILE -- (Default, depending on hive.default.fileformat configuration) | RCFILE -- (Note: Available in ...

hive--小文件问题

qq_46893497的博客

10-07

1979

@TOC 小文件如何产生 hive的底层存储是HDFS，默认的块大小是128M，通常小于默认块大小，HDFS默认也算一个block, 所以产生小文件主要有以下几种： 1、数据源本身就包含有大量的小文件。 2、使用spark/flink实时写hive时，根据业务的时间窗口（10s，20s）落地hive表，产生很多小文件。 3、采用动态分区也会产生很多小文件。 4、reduce的个数输出。默认reduce个数和落地hive文件个数一样。小文件带来的影响 1、从Hive的角度看，小文件会开很多map

hive 分桶文件的大小多大最合适

m0_38109926的博客

03-08

2592

另一方面，如果某个列包含许多唯一值，例如包含顾客 ID 的列，这可能不是一个好的分桶字段，因为这可能会导致分桶数量过多，从而降低查询效率。在 Hive 中，选择分桶字段时，考虑到分桶字段的值将被用于对数据进行分区，因此选择较少离散值的列作为分桶字段可以提高查询效率。同时，指定适当的分桶数也很重要，应该进行实验和测试以找到最佳的分桶数，以获得最佳的查询性能。在 Hive 中，修改分桶字段比较困难，因为分桶字段决定了表的数据分布方式，如果修改分桶字段可能会导致数据重新分布，进而影响查询性能。

在HIVE中如何批量统计数据文件大小

最新发布

03-19

<think>好的，用户想了解如何在Hive中批量统计存储的数据文件大小。我需要结合之前提供的引用信息来回答这个问题。首先，用户提到的引用[1]提到使用ANALYZE TABLE命令收集统计信息，包括数据大小，但可能不够详细。引用[2]和引用[3]提到了通过HDFS命令获取文件大小，比如hdfs dfs -du，并且引用[3]还提到多线程处理HDFS路径。引用[4]是关于处理XML文件和建表的问题，可能和当前问题关联不大，暂时不考虑。用户需要批量统计，所以可能需要结合Hive的元数据和HDFS命令。Hive表的数据存储在HDFS的特定路径下，每个表对应的HDFS路径可以在元数据中找到。因此，方法可能分为两种：使用Hive的ANALYZE TABLE命令或者直接通过HDFS命令遍历表路径。第一种方法，使用ANALYZE TABLE可以获取统计信息，但可能只能得到总大小，不够详细或者需要手动执行每个表。第二种方法，通过获取所有表的HDFS路径，然后使用hdfs dfs -du命令批量统计，这种方法更灵活，可以编写脚本自动化处理。另外，引用[3]提到处理HDFS路径和多线程获取大小，这可能适用于大量表的情况，提高效率。同时，用户可能需要分步骤说明，比如获取所有表及其路径，然后执行HDFS命令，最后汇总结果。还需要注意权限问题，以及如何处理分区表的情况，因为每个分区可能有不同的路径。总结步骤可能是： 1. 获取Hive所有表的HDFS路径。 2. 使用HDFS命令统计每个路径的大小。 3. 批量处理所有表，可能用脚本循环或并行处理。 4. 结合元数据中的分区信息，处理分区表。需要确保回答结构清晰，分步骤说明，并提供示例脚本，方便用户参考。同时，提醒用户注意权限和路径的正确性，以及可能的性能优化方法，比如多线程。</think>在Hive中批量统计数据文件大小，可以通过以下两种方法实现： ### 方法一：基于Hive元数据统计 1. **获取表路径信息** ```sql -- 查询所有表的HDFS路径 SELECT db_name, tbl_name, tbl_location FROM metastore_db.DBS d JOIN metastore_db.SDS s ON d.DB_ID = s.DB_ID; ``` 通过Hive元数据库查询表存储路径[^3] 2. **执行统计命令** ```bash # 对单个表执行统计 ANALYZE TABLE db_name.table_name COMPUTE STATISTICS; ``` 统计结果存储在`TABLE_PARAMS`表中，可查询`totalSize`字段获取字节数[^1] ### 方法二：基于HDFS直接统计 1. **获取表HDFS路径** ```bash # 获取Hive表路径模板 hdfs dfs -ls /user/hive/warehouse/[database].db/ ``` 2. **批量统计脚本** ```bash # 多线程统计脚本示例 for table in $(hive -e "SHOW TABLES"); do hdfs_path=$(hive -e "DESCRIBE FORMATTED $table" | grep 'Location' | awk '{print $NF}') hdfs dfs -du -s $hdfs_path >> table_sizes.txt & done wait ``` 支持并行处理提升效率[^3] ### 综合优化方案 ```python # 自动化统计脚本框架 import subprocess def get_hive_tables(): # 调用hive命令获取表清单 return [...] def get_table_location(table): # 解析DESCRIBE FORMATTED结果 return hdfs_path def batch_calculate(): for table in get_hive_tables(): path = get_table_location(table) subprocess.run(f"hdfs dfs -du -s {path}", shell=True) ``` ### 注意事项 1. **分区表处理**：需要遍历所有分区路径 ```bash hdfs dfs -du -h /path/to/table/year=2023/month=* ``` 2. **单位转换**：统计结果默认是字节，需人工转换单位 3. **权限要求**：执行用户需要HDFS目录读取权限[^2]