Kafka处理千万级的数据,产生的初衷为了数据的收集及合理的消费,实际数据怎样获取
几乎所有的项目都会使用log4j组件,为log4j组件设计一个通道,让他采集到的数据直接发送给消息系统,再有消息系统发送给其他的分析程序,这样就不需要大面积的修改已有的程序代码了
Flume可以理解为日志系统和消息组件之间的过渡段



Flume核心的本质要结合log4j和消息组件的使用,会产生大规模的日志数据,所以首选kafka
Flume的应用实例:
一方面是可以模块化,功能划分更加清晰,从“数据采集--数据接入--流式计算--数据输出/存储”
1).数据采集
负责从各节点上实时采集数据,选用cloudera的flume来实现
2).数据接入
由于采集数据的速度和数据处理的速度不一定同步,因此添加一个消息中间件来作为缓冲,选用apache的kafka
3).流式计算
对采集到的数据进行实时分析,选用apache的storm
4).数据输出
对分析后的结果持久化,暂定用mysql
另一方面是模块化之后,假如当Storm挂掉了之后,数据采集和数据接入还是继续在跑着,数据不会丢失,storm起来之后可以继续进行流式计算;
本文探讨了Kafka与Flume在大数据处理中的关键作用,特别是它们如何有效收集、处理和分析大规模日志数据。通过模块化的系统设计,包括数据采集、数据接入、流式计算和数据输出,确保了数据处理的高效性和可靠性。
814

被折叠的 条评论
为什么被折叠?



