
大数据
文章平均质量分 89
ddman_豪
这个作者很懒,什么都没留下…
展开
-
Hive 常见问题
1. Hive 与 mySQL 的 区别 2. Hive 的版本选择问题 3. sort/distribute/cluster by order by 全局排序,大规模数据集效率低 Sort by为每个reducer产生一个排序文件。每个Reducer内部进行排序,对全局结果集来说不是排序 distribute by 在有些情况下,我们需要控制某个特定行应该到哪个reducer,通常是为了进行后续的聚集操作。distribute by 子句可以做这件事。distribute by 类似 MR 中part原创 2021-08-04 23:54:44 · 240 阅读 · 1 评论 -
Kafka消息队列 入门到精通 看这一篇就够了
第一章 概述 1.1 什么是Kafka 一个分布式的,基于 发布/订阅模式 的消息队列(MassageQueue),主要应用于大数据实时处理领域。 1.2 消息队列 有两种处理任务的方式:同步处理 和 异步处理。 同步处理:每一步必须等到前一步完成,才可执行。 异步处理:分批次处理,前一步未完成也可以开始下一步。 消息队列为异步处理,使用消息队列的好处: 解耦:只要遵循相同接口,则可以独立扩展或修改不同处理过程,提高可恢复性和健壮性。 缓冲:有助于控制和优化数据经过系统的速度,解决生产者和消费者速度原创 2021-05-25 20:44:01 · 934 阅读 · 7 评论