1、数据收集工具/系统产生的背景
1. 1 hadoop的业务流程
一般而言在hadoop的开发过程之中会经历以下几个流程
数据采集 — MAPREDUCE数据清洗 — 数据储存在Hbase — Hive统计和分析 — 存入Hive表中 — 存入Mysql - 展示数据
在这些业务流程之中数据采集是一切业务的来源 ,数据采集的数据的准确性,可靠性往往会对结果产生重要的影响
1.2 大数据的数据特点
大数据的业务数据的特点一般会归纳为:
- 数据量大:一般的企业级数据为1PB=1024TB=1,048,576 GB
- 数据种类多:区别于以往的传统业务数据,大数据的业务数据一般而言,种类较多,个性化突出
- 数据产生的速度快:
- 数据的价值总量大,而相对的价值密度更低
如此一来对于大数据业务而言,如何保证数据的可靠性,数据去重以及保证数据质量是评判是否是一个优秀的数据采集工具的重要标准
2、Flume的概念
官网:http://flume.apache.org/FlumeUserGuide.html 官方文档首页介绍
Apache Flume is a distributed, reliable, and available system for efficiently collecting, aggregating and moving large amounts of log data from many different sources to a centralized data store.
FLume是一个分布式,可靠,高可用的聚合式日志收集系统,他可以从不同的资源库中收集日志存储到集中的数据存储中心