
Hive面试题(持续更新)
文章平均质量分 93
分享在工作中的总结和近期面试的一些总结
xyz2011
大数据从业者,赶上了时代的红利,希望自己的一些经验对大家有一些帮助
展开
-
Hadoop中几种列式存储的区别和联系
ORC(Optimized Row Columnar)格式,起源于Hive社区,并随后成为Apache软件基金会旗下的一个项目,代表了一种高效的列式存储方案。这种格式主要针对数据仓库和大规模数据分析应用而设计,其高性能和自定义类型支持的特性,使得它在处理复杂数据结构和大规模数据集时表现出色。随着大数据技术的不断发展,ORC格式逐渐成为数据科学家和工程师们在进行数据分析和处理时的重要选择之一。ORC格式的发展历程与Hadoop生态系统的壮大紧密相连。原创 2024-12-10 21:54:22 · 322 阅读 · 0 评论 -
Hadoop-几种列式存储比较
介绍Hadoop几种列式存储的一些理论及区别,帮助大家在平时的工作中合理的选择格式存储原创 2024-11-20 21:25:03 · 206 阅读 · 0 评论 -
Hive基础面试-如何理解复用率的
事实表(Fact Table)是指存储有事实记录的表,如系统日志、销售记录等;事实表的记录在不断地动态增长,所以它的体积通常远大于其他表。事实表作为数据仓库建模的核心,需要根据业务过程来设计,包含了引用的维度和业务过程有关的度量。可加:最灵活最有用的事实是完全可加,可加性度量可以按照与事实表关联的任意维度汇总。比如消费总金额半可加:半可加度量可以对某些维度汇总,但不能对所有维度汇总。差额是常见的半可加事实,除了时间维度外,他们可以跨所有维度进行操作。(比如每天的余额加起来毫无意义)原创 2024-11-19 17:20:46 · 369 阅读 · 0 评论