
Hive
文章平均质量分 84
Hive
Apache呀
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数仓建模理论与规范
数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。从上面的定义可用看到数据仓库主要有四个特点:• 面向主题:面向分析主题,如商家全域分析、交易环节分析等。• 集成的:将业务系统进行集成组装,并整合到数据仓库中。原创 2024-01-16 11:40:46 · 1392 阅读 · 0 评论 -
一篇文章教会你数据仓库之详解拉链表怎么做
上面的拉链表存储方式对于下游使用方存在一定的理解障碍,特别是ODS 数据面向的下游用户包括数据分析师、前端开发人员等,他们不怎么理解维度模型的概念,因此会存在较高的解释成本。1 . 透明化 底层的数据还是历史拉链存储,但是上层做一个视图操作或者在 Hive 里做一个hook ,通过分析语句的语法树,把对极限存储前的表的 查询转换成对极限存储表的查询。但是其本身也有一定的局限性,流水表存放的是一个用户的变更记录,比如在一张流水表中,一天的数据中,会存放一个用户的每条修改记录,但是在拉链表中只有一条记录。原创 2023-12-26 16:27:52 · 593 阅读 · 0 评论 -
Hive生产场景的十大经验总结
先转换为Hive内部表再进行删除,注意external的大小写形式。转载 2023-06-26 17:07:58 · 421 阅读 · 0 评论 -
优化查询的利器:使用Left Semi Join 和 Left Anti Join 提高Hive查询性能
可以替代使用 right table 在 where 中国 in/not in 的子查询。这比 directly 选 left table 快,因为不需要全表扫描。通过 ON 条件只匹配右表中的部分记录,从而完成对右表的过滤。二者效果相同,但 left semi join 的性能更高。返回左表所有记录,与右表匹配的用右表值,否则用null填充。只返回了table1中的id=3 和 id=4的记录。它看起来多余,但实际上可以提高查询效率。也就是说只返回左表中不在右表中的记录。这可以有效提高性能。原创 2023-05-18 14:40:15 · 1491 阅读 · 0 评论 -
Hive不同的存储格式比较
存储格式概念区别使用场景优点缺点建表语句磁盘空间查询效率存储效率文本文件(TEXTFILE)将数据存储为文本格式适合存储小数据量、可读性要求高的场景易于使用、可读性强存储格式简单读取速度较慢、不适合存储海量数据较大,每行数据都以文本形式存储读取速度较慢存储效率低序列文件(SEQUENCEFILE)将数据存储为二进制格式适合存储大数据量、对可读性要求不高的场景读取速度快、易于存储大数据量存储格式紧凑、可压缩不支持单独读取某一列。原创 2023-05-10 17:26:35 · 952 阅读 · 0 评论 -
Hive参数与性能调优
在使用Hive时,合理的参数设置和性能调优能够提高查询效率和减少资源消耗。同时,数据分区、数据压缩、合理使用聚合函数、索引和避免全表扫描等方法也是优化Hive性能的重要手段。在实际使用中,应该根据具体业务需求和数据规模选择合适的参数和优化方法,以达到最佳的性能表现。原创 2023-04-27 18:40:19 · 1202 阅读 · 0 评论 -
Hive 窗口函数
Hive 窗口函数是一种在数据集合内进行计算的函数,可以用于分析数据集合中的某个子集,并返回一个结果集合。窗口函数和聚合函数类似,但与聚合函数不同的是,窗口函数可以在查询结果中保留源数据的行,而不是将它们归纳为单个行。在 Hive 中,窗口函数可以使用OVER子句来定义,可以按照指定的排序规则(ORDER BY)和分区规则()来对数据进行分组,然后在每个分组内进行计算。原创 2023-04-28 12:34:43 · 135 阅读 · 0 评论 -
HiveSQL执行计划查看(EXPLAIN)
HiveSQL执行计划是指查询语句的执行过程,包括查询语句的优化、查询计划生成和查询执行。通过EXPLAIN命令,我们可以查看查询语句的执行计划,找到性能瓶颈和优化方案,调试查询语句,加深对查询过程的理解。在实际使用中,我们可以根据需要选择不同的参数来获取不同的执行计划信息。原创 2023-04-30 17:05:01 · 3256 阅读 · 0 评论