Flume、Kafka、Hbase、Hive适用场景

最新推荐文章于 2022-09-24 22:00:09 发布

原创最新推荐文章于 2022-09-24 22:00:09 发布 · 1.7k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#Flume适用场景 #Kafka适用场景 #Hbase适用场景 #Hive适用场景

Kafka 同时被 3 个专栏收录

8 篇文章

订阅专栏

HBase

7 篇文章

订阅专栏

Hive

7 篇文章

订阅专栏

本文探讨了Flume、Kafka在数据传输中的角色，Hbase在大数据存储的优势及Hive作为数据仓库的应用场景。Kafka适用于单一来源高吞吐量数据，Flume则适合多样化的数据源和流向。Hbase适合随机读写、半结构化数据存储及多版本数据需求。Hive用于Hadoop集群上类SQL操作，适合离线数据处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

@Author  : Spinach | GHB
@Link    : http://blog.youkuaiyun.com/bocai8058

文章目录

Flume、Kafka适用场景

Kafka、Flume都可以实现数据的传输，但它们的侧重点不同。

Kafka追求的是高吞吐量、高负载（topic下可以有多个partition）

Flume追求的是数据的多样性：数据来源的多样性、数据流向的多样性

如果数据来源很单一、想要高吞吐的话可以使用Kafka

如果数据来源很多、数据流向很多的话可以使用Flume

也可以将Kafka和Flume结合起来使用。

【请看链接详细内容】
引用：https://blog.youkuaiyun.com/helloxiaozhe/article/details/79481319

Hbase适用场景

Hbase适合需对数据进行随机读操作或者随机写操作、大数据上高并发操作，比如每秒对PB级数据进行上千次操作以及读写访问均是非常简单的操作。

半结构化或非结构化数据

对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的数据适合用HBase。以上面的例子为例，当业务发展需要存储author的email，phone，address信息时RDBMS需要停机维护，而HBase支持动态增加.

记录非常稀疏

RDBMS的行有多少列是固定的，为null的列浪费了存储空间。而如上文提到的，HBase为null的Column不会被存储，这样既节省了空间又提高了读性能。

多版本数据

根据Row key和Column key定位到的Value可以有任意数量的版本值，因此对于需要存储变动历史记录的数据，用HBase就非常方便。

超大数据量

当数据量越来越大，RDBMS数据库撑不住了，就出现了读写分离策略，通过一个Master专门负责写操作，多个Slave负责读操作，服务器成本倍增。随着压力增加，Master撑不住了，这时就要分库了，把关联不大的数据分开部署，一些join查询不能用了，需要借助中间层。随着数据量的进一步增加，一个表的记录越来越大，查询就变得很慢，于是又得搞分表，比如按ID取模分成多个表以减少单个表的记录数。经历过这些事的人都知道过程是多么的折腾。采用HBase就简单了，只需要加机器即可，HBase会自动水平切分扩展，跟Hadoop的无缝集成保障了其数据可靠性（HDFS）和海量数据分析的高性能（MapReduce）。