hive中count(*)、count(1)、count(某字段)的区别

最新推荐文章于 2023-08-24 17:02:00 发布

lvtula

最新推荐文章于 2023-08-24 17:02:00 发布

阅读量1.4k

点赞数

分类专栏： Hive 文章标签： hive的count

Hive 专栏收录该内容

57 篇文章

订阅专栏

本文围绕某公司面试题，介绍了Hive中count(*)、count(1)和count(column)的统计规则，count(*)和count(1)统计所有行包括NULL行，count(column)统计非Null行。作者在集群表测试，给出三者执行时间，并分析执行计划，指出count(id)多一个Select operator，其Group By Operator的aggregations过程也不同。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近看到某公司面试题有这个，顺便查了一下。

count(*)：所有行进行统计，包括NULL行
count(1)：所有行进行统计，包括NULL行
count(column)：对column中非Null进行统计

我在集群找了一个表试了一下，结果差距不是很大，因为执行时间会受集群资源的影响，所以看下具体的执行步骤

先看结果，count(*)执行时间26s

select count(*)
from ods.baseorganize
MR程序：

STAGE DEPENDENCIES:
Stage-1 is a root stage
Stage-0 depends on stages: Stage-1

STAGE PLANS:
Stage: Stage-1
Map Reduce
Map Operator Tree:
TableScan
alias: baseorganize
Statistics: Num rows: 1 Data size: 18670704 Basic stats: COMPLETE Column stats: COMPLETE
Select Operator
Statistics: Num rows: 1 Data size: 18670704 Basic stats: COMPLETE Column stats: COMPLETE
Group By Operator
aggregations: count() <span style="color:#ff0000;">此处不同</span>
mode: hash
outputColumnNames: _col0
Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: COMPLETE
Reduce Output Operator
sort order:
Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: COMPLETE
value expressions: _col0 (type: bigint)
Reduce Operator Tree:
Group By Operator
aggregations: count(VALUE._col0)
mode: mergepartial
outputColumnNames: _col0
Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: COMPLETE
File Output Operator
compressed: false
Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: COMPLETE
table:
input format: org.apache.hadoop.mapred.TextInputFormat
output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

Stage: Stage-0
Fetch Operator
limit: -1
Processor Tree:
ListSink

count(1)执行时间18.8s

select count(1) from ods.baseorganize
MR程序

STAGE DEPENDENCIES:
Stage-1 is a root stage
Stage-0 depends on stages: Stage-1

STAGE PLANS:
Stage: Stage-1
Map Reduce
Map Operator Tree:
TableScan
alias: baseorganize
Statistics: Num rows: 1 Data size: 18670704 Basic stats: COMPLETE Column stats: COMPLETE
Select Operator
Statistics: Num rows: 1 Data size: 18670704 Basic stats: COMPLETE Column stats: COMPLETE
Group By Operator
aggregations: count(1) 此处不同
mode: hash
outputColumnNames: _col0
Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: COMPLETE
Reduce Output Operator
sort order:
Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: COMPLETE
value expressions: _col0 (type: bigint)
Reduce Operator Tree:
Group By Operator
aggregations: count(VALUE._col0)
mode: mergepartial
outputColumnNames: _col0
Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: COMPLETE
File Output Operator
compressed: false
Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: COMPLETE
table:
input format: org.apache.hadoop.mapred.TextInputFormat
output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

Stage: Stage-0
Fetch Operator
limit: -1
Processor Tree:
ListSink

count(id)执行时间19.25s

select count(id) from ods.baseorganize
MR程序

STAGE DEPENDENCIES:
Stage-1 is a root stage
Stage-0 depends on stages: Stage-1

STAGE PLANS:
Stage: Stage-1
Map Reduce
Map Operator Tree:
TableScan
alias: baseorganize
Statistics: Num rows: 186707 Data size: 18670704 Basic stats: COMPLETE Column stats: NONE
Select Operator
expressions: id (type: string)
outputColumnNames: id 这里多一行代码
Statistics: Num rows: 186707 Data size: 18670704 Basic stats: COMPLETE Column stats: NONE
Group By Operator
aggregations: count(id) 这里不同
mode: hash
outputColumnNames: _col0
Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE
Reduce Output Operator
sort order:
Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE
value expressions: _col0 (type: bigint)
Reduce Operator Tree:
Group By Operator
aggregations: count(VALUE._col0)
mode: mergepartial
outputColumnNames: _col0
Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE
File Output Operator
compressed: false
Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE
table:
input format: org.apache.hadoop.mapred.TextInputFormat
output format: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

Stage: Stage-0
Fetch Operator
limit: -1
Processor Tree:
ListSink

从上面三个执行计划来看，小量不同：

1、count(id)的时候多了一个Select operator；
2、count(id)的Group By Operator 的 aggregations过程略有不同
---------------------
作者：huobumingbai1234
来源：优快云
原文：https://blog.youkuaiyun.com/huobumingbai1234/article/details/80706011
版权声明：本文为博主原创文章，转载请附上博文链接！