Hive监控表的数据量，使用analyze

最新推荐文章于 2025-06-29 15:39:31 发布

章鱼哥TuNan&Z

最新推荐文章于 2025-06-29 15:39:31 发布

阅读量1.9k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： # Hive 文章标签： hive big data hadoop

本文链接：https://blog.youkuaiyun.com/qq_43528451/article/details/124687154

Hive 专栏收录该内容

59 篇文章

订阅专栏

本文介绍了如何使用Hive的ANALYZE TABLE命令来收集和查询表的数据统计信息，包括行数、大小和文件数。这些统计信息存储在metastore中，用于提升查询效率。Hive默认自动收集统计信息，但LOAD DATA操作后需手动执行。通过DESCRIBE FORMATTED命令可以查看统计详情。手动收集时，可以使用NOSCAN选项避免扫描文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Hive监控表的数据量，使用analyze

1、使用方式

analyze TABLE td.pt_pmart_ceo_FIN_TRSF_CTR_SITE_MAP partition (dt) COMPUTE STATISTICS  noscan

工作中用到的统计一个表的数据量

# table_counts 查询出传入日期的表的数据量
table_counts=$(hive -e "analyze table ${DB_NAME}.${TABLE_NAME} partition(pt='${P_DATE}') compute statistics;
desc formatted ${DB_NAME}.${TABLE_NAME} partition(pt='${P_DATE}')" | grep numRows | awk '{print $2}')

2、为啥使用：为了统计与分析，他将统计信息存储到metastore中，后续再俩查询的时候就不需要再执行查询计算，可以直接获取

3、适用范围：统计信息支持新建的和现有的表，支持分区表和普通表的统计信息，以及列统计信息。

4、analyz

4.1表统计

行数，大小（字节为单位），文件数

hive是默认自动收集统计信息，有hive.stats.autogather配置参数决定，默认是true。但是对于load data 方式是不支持的。（这个是在计算的时候统计出来的，load是将数据直接放在对应的目录下）

手动收集。手动收集的指令

ANALYZE TABLE [db_name.]tablename [PARTITION(partcol1[=val1], partcol2[=val2], …)]
COMPUTE STATISTICS
[FOR COLUMNS] – (Note: Hive 0.10.0 and later.)
[CACHE METADATA] – (Note: Hive 2.1.0 and later.)
[NOSCAN];

如果指定了NOSCAN的话，该命令将不会去扫描文件，仅会收集文件数和文件大小的信息