离线采集系统(日志+业务数据)
文章平均质量分 92
日志采集:Web/App + Nginx + 日志服务器 + Flume + Kafka + Flume + HDFS
业务采集:Web/App + Nginx + 业务服务器 + MySQL + Sqoop + HDFS
时差N小时
当初的愿望都实现了吗?
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Flume采集日志数据
一、为什么选用Flume? Flume vs Logstash vs Filebeat 当时选择数据采集工具时,我们主要参考了市面上热度比较高的Flume和Logstash还有Filebeat,据目前所知,美团和苏宁用的是Flume。 Flume当初的设计初衷就是将数据传送到HDFS中,它更加地注重数据的传输,而Logstash是ELK组件(Elastic Search、Logstash、Kibana)中的一员,侧重于数据预处理。 Flume比Logstash多了一个可靠性策略,在Flume中传输的数据会持原创 2021-03-16 14:08:46 · 2566 阅读 · 2 评论 -
Flume-Kafka-Flume采集
一、第一层Flume的ETL拦截器: 作用:进行初步数据清洗,去除不符合Json格式的数据。 1、pom.xml文件 导入两个依赖和两个插件 <?xml version="1.0" encoding="UTF-8"?> 4.0.0 <groupId>com.atguigu</groupId> <artifactId>data0821</artifactId> <version>1.0-SNAPSHOT</version>原创 2021-03-13 10:30:24 · 1344 阅读 · 1 评论
分享