flume kafka hive spark flink笔记

原创

已于 2022-09-28 13:05:26 修改

· 1.3k 阅读

3 ·

版权

文章标签：

#kafka #flume #hive

于 2022-09-27 13:17:20 首次发布

本文详细介绍了大数据实时处理工具Flume、消息队列Kafka、数据仓库Hive和计算引擎Spark的核心概念与应用场景。Flume用于日志收集，具有可靠性与高可用性。Kafka提供了消息队列服务，确保消息不丢失、不重复，保证顺序性。Hive作为数据仓库工具，支持SQL查询和数据优化。Spark则提供快速的内存计算，支持批处理、SQL和流处理。文章深入探讨了这些技术的交互与优化策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Flume

一：flume是什么？

flume是一个可分布式，可靠。可高可用得日志收集，汇聚和传输得系统。适用于大部分得日常数据采集场景。

二：flume核心概念：

webserver-

taildir source---采集组件和数据源对接，获取数据。他有断点续传功能和读取多目录文件的功能
（source和channel中间有一个put事务）
Memory channel-- 读写速度快
（channel和sink中间有take事务）

通过这两个事务，flume提高了数据传输的完整性和准确性
kafka sink--能够将数据推送到kafka下消息队列。---hdfs

Kafka

一：kafka是什么？

kafka是一个消息队列
topic ---- 消息存放的目录即主题 producer 生产消息到topic的一方
consumer ---- 订阅topic消费消息的一方 broker kafka的服务实例就是一个broker
Kafka中发布订阅的对象是topic。我们可以为每类数据创建一个topic，把向topic发布消息的客户端称作producer
从topic订阅消息的客户端称作consumer。Producers和consumers可以同时从多个topic读写数据
一个kafka集群由一个或多个broker服务器组成，它负责持久化和备份具体的kafka消息。

二：为什么使用kafka？

解耦--异步--削峰
引入消息队列后, 系统A产生的数据直接发送到消息队列中, 哪个系统需要系统A的数据就直接去消息队列中消费, 这样系统A就和其他系统彻底解耦了
引入消息队列后, 系统A将消息发送到消息队列中就可以直接返回, 接口总共耗时很短, 用户体验非常棒
在高并发场景下(比如秒杀活动)某一刻的并发量会非常高, 如果这些请求全部到达MySQL, 会导致MySQL崩溃,
这时我们需要引入消息队列, 先将请求积压到消息队列中, 让MySQL正常处理.

Kafka是一个分布式的消息队列, 一个topic有多个partition, 每个partition分布在不同的节点上
Kafka还可以为partition配置副本机制, 一个主副本对外提供服务, 多个从副本提供冷备功能(即只起备份作用, 不提供读写).