Spark学习之Flume

最新推荐文章于 2024-05-07 15:05:57 发布

原创

最新推荐文章于 2024-05-07 15:05:57 发布 · 235 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Flume #Hadoop工具组件

Apache Flume 是一个分布式、可靠且高可用的日志聚合系统，用于高效地从多种源收集大量数据，并将其传输到集中式数据存储。它包含Source、Channel和Sink等核心组件，实现事件数据的流动。Flume不仅限于日志数据，还可处理各种事件数据。本文介绍了Flume的业务流程、组件和部署方式。

1、数据收集工具/系统产生的背景

1. 1 hadoop的业务流程

一般而言在hadoop的开发过程之中会经历以下几个流程
数据采集 — MAPREDUCE数据清洗 — 数据储存在Hbase — Hive统计和分析 — 存入Hive表中 — 存入Mysql - 展示数据
在这些业务流程之中数据采集是一切业务的来源，数据采集的数据的准确性，可靠性往往会对结果产生重要的影响

1.2 大数据的数据特点

大数据的业务数据的特点一般会归纳为：

数据量大：一般的企业级数据为1PB=1024TB=1,048,576 GB
数据种类多：区别于以往的传统业务数据，大数据的业务数据一般而言，种类较多，个性化突出
数据产生的速度快：
数据的价值总量大，而相对的价值密度更低
如此一来对于大数据业务而言，如何保证数据的可靠性，数据去重以及保证数据质量是评判是否是一个优秀的数据采集工具的重要标准

2、Flume的概念

官网：http://flume.apache.org/FlumeUserGuide.html 官方文档首页介绍
Apache Flume is a distributed, reliable, and available system for efficiently collecting, aggregating and moving large amounts of log data from many different sources to a centralized data store.
FLume是一个分布式，可靠，高可用的聚合式日志收集系统，他可以从不同的资源库中收集日志存储到集中的数据存储中心

最低0.47元/天解锁文章