Lamda架构日志分析流水线
文章平均质量分 76
实时日志分析流水线:
Nginx->Flume->Kafka->Spark Streaming->Flask/SpringBoot
离线日志分析流水线:
Nginx->Flume->HDFS->Spark SQL->SpringBoot
留歌留歌
只要最后那个人是你,晚一点也没关系
展开
-
Flume系列一之架构介绍和安装
Flume架构介绍和安装写在前面 在学习一门新的技术之前,我们得知道了解这个东西有什么用?我们可以使用它来做些什么呢?简单来说,flume是大数据日志分析中不能缺少的一个组件,既可以使用在流处理中,也可以使用在数据的批处理中。 1.流处理: 2.离线批处理: 分析:不管你是数据的实时流处理,还是数据的离线批处理,都是会使用flume这个日志收集框架来做日志原创 2017-11-21 11:10:11 · 1218 阅读 · 1 评论 -
Flume系列二之案例实战
Flume案例实战写在前面 通过前面一篇文章http://blog.youkuaiyun.com/liuge36/article/details/78589505的介绍我们已经知道flume到底是什么?flume可以用来做什么?但是,具体怎么做,这就是我们这篇文章想要介绍的。话不多说,直接来案例学习。实战一:实现官网的第一个简单的小案例-从指定端口采集数据输出到控制台如何开始呢? 看官网!!!!原创 2017-11-21 14:02:57 · 1555 阅读 · 0 评论 -
Flume和Kafka完成实时数据的采集
Flume和Kafka完成实时数据的采集写在前面 Flume和Kafka在生产环境中,一般都是结合起来使用的。可以使用它们两者结合起来收集实时产生日志信息,这一点是很重要的。如果,你不了解flume和kafka,你可以先查看我写的关于那两部分的知识。再来学习,这部分的操作,也是可以的。实时数据的采集,就面临一个问题。我们的实时数据源,怎么产生呢?因为我们可能想直接获取实时的数据流不是那么的原创 2017-11-21 22:32:00 · 7901 阅读 · 0 评论 -
Hive安装与简单使用并集成SparkSQL
Hive环境搭建hive下载:http://archive-primary.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gzwget http://archive-primary.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz解压tar -zxvf hive-1.1.0-cdh...原创 2018-10-30 20:38:48 · 556 阅读 · 0 评论 -
Nginx=>Flume=>Kafka 流程总结
nginx=>flume=>kafka编写flume 日志收集文件nginx日志access.log====>flumea1.sources = r1a1.sinks = k1a1.channels = c1a1.sources.r1.type = execa1.sources.r1.command = tail -F /root/logs/a原创 2018-11-06 17:48:40 · 827 阅读 · 0 评论 -
Hbase安装与简单使用
Hbase安装wget http://archive-primary.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.7.0.tar.gz导出到系统环境变量export HBASE_HOME=////export PATH=$HBASE_HOME/bin:$PATH修改配置vim conf/hbase-env.sh# 导出JAVA...原创 2018-11-06 17:38:16 · 932 阅读 · 0 评论 -
Debezium SQL Server Source Connector+Kafka+Spark+MySQL 实时数据处理
写在前面前段时间在实时获取SQLServer数据库变化时候,整个过程可谓是坎坷。然后就想在这里记录一下。在处理实时数据时,需要即时地获得数据库表中数据的变化,然后将数据变化发送到Kafka中。这篇文章将介绍如何使用Kafka Connector完成这一工作。...原创 2019-09-29 11:10:50 · 2284 阅读 · 16 评论