
hive
文章平均质量分 79
hive是基于 Hadoop 的一个数据仓库工具,它主要有2个功能:①可以将结构化的数据文件映射为一张数据库表
②可以将 HQL 语句转换为 MapReduce 程序
Distantfbc
数智未来
展开
-
Hive查询计划
通过explain authorization可以知道当前SQL访问的数据来源(INPUTS)和数据输出(OUTPUTS),以及当前Hive的访问用户 (CURRENT_USER)和操作(OPERATION)。input_partitions:描述一段SQL依赖的数据来源表分区,里面存储的是分区名的列表,如果整段SQL包含的所有表都是非分区表,则显示为空。Statistics:表统计信息,包含分组聚合之后的数据条数,数据大小等。Statistics:表统计信息,包含表中数据条数,数据大小等;原创 2024-09-10 11:35:18 · 591 阅读 · 1 评论 -
数仓|Hive性能调优(二)
这样比起上面调整mapper数时,又会多出两个参数,分别是mapred.min.split.size.per.node和mapred.min.split.size.per.rack,含义是单节点和单机架上的最小split大小。需要更改Hive的输入文件格式,即参数hive.input.format,默认值是org.apache.hadoop.hive.ql.io.HiveInputFormat,我们改成org.apache.hadoop.hive.ql.io.CombineHiveInputFormat。原创 2023-06-05 19:53:25 · 183 阅读 · 0 评论 -
数仓|Hive性能调优(一)
hive优化(1)原创 2023-06-05 11:57:56 · 261 阅读 · 0 评论