
企业级大数据流处理平台
文章平均质量分 72
基于Flume+Kafka+Spark Streaming打造企业级大数据流处理平台
张老邪
本人旨在记录学习过程,内容如有错误请见谅,有问题可以邮件交流1694252140@qq.com
展开
-
Flume+Kafka+Spark streaming
一.使用Flume实时收集日志信息 创建streaming_project.conf : exec-memory-logger.sources = exec-source exec-memory-logger.channels = memory-channel exec-memory-logger.sinks = logger-sink exec-memory-logger.sources.exec-source.type = exec exec-memory-logger.sources.exec-.原创 2020-08-24 09:08:28 · 475 阅读 · 0 评论 -
Spark streaming + Kafka 实时数据分析大数据项目实战
实时/离线 流式计算框架:Spark Streaming Spark Streaming 是核心spark API的一个扩展,在处理数据前按时间间隔预先将其切分为一段一段的批处理作业。 Spark 针对持续性数据流的抽象称为DStream,一个DStream是一个批处理的RDD(弹性分布式数据集);而RDD则是一个分布式数据集,能够以两种方式并行运作,分别是任意函数和滑动窗口数据的转换。 实战一:Receiver – based 1) 启动zookeeper 2) 启动kafka 3) 打jar包前先注释掉原创 2020-08-24 09:08:20 · 1141 阅读 · 0 评论 -
整合Flume到Kafka完成实时数据的采集
整合Flume和Kafka的综合使用 (1)在flume的conf中添加以下两个文件 exec-memory-avro.conf Avro-memory-kafka.conf (2)启动原创 2020-08-24 09:08:11 · 181 阅读 · 0 评论 -
实时批处理Spark Streaming
开源在Github https://Github.com/apache/spark 一. 概述 低延时,可拓展,高吞吐量,可容错的,能够将批处理、机器学习、图计算等子框架和Sparking Streaming综合使用 实时数据流的流处理 分布式计算框架 将不同的数据源的数据经过Sparking Streaming处理之后将结果输出到外部文件系统。 Sparking Streaming不需要独立安装 一栈式解决!!! 二. 应用场景 电商 三. 集成Spark生态系统的使用 四. 发展史 五. 从词频原创 2020-08-23 18:31:37 · 812 阅读 · 0 评论 -
大数据可视化工具
一. 可视化 定义:将抽象的科学或者商业数据.用图像表示出来.帮助理解数据的意义的过程。它通常会在进行数据分析(data analysis)的过程中大量的使用。 二. Spring Boot(后端)构建Web项目,可以节省很多不必要的配置 三. 使用Echarts构建静态数据可视化 四. 使用Echarts构建动态数据可视化 五. 阿里云DataV数据可视化 ...原创 2020-08-23 18:05:16 · 182 阅读 · 0 评论 -
hadoop环境及框架介绍
(一)安装hadoop,在/home/hadoop下创建目录 app 存放所有的软件的安装目录 data 存放测试数据 lib 存放jar software 存放软件安装包的目录 source 存放框架源码 (二)hadoop生态系统:5.7.0 所有的Hadoop生态的的软件下载地址:http://archive.cloudera.com/cdh5/cdh/5/ jdk: 1.8(被依赖于原创 2020-08-23 18:02:01 · 260 阅读 · 1 评论 -
大数据消息中间件Kafka概述学习
Kafka概述 官网:kafka.apache.org 分布式流处理平台:发布和订阅 和消息系统类似 消息中间件:生产者和消费者 妈妈:生产者 你:消费者 馒头:数据流 正常情况下:生产一个 消费一个 原创 2020-08-23 17:47:09 · 341 阅读 · 0 评论 -
日志收集工具Flume
有多个服务器和系统 1) 网络设备 2) 操作系统 3) Web服务器 4) 应用设备 系统上有大量的日志和其他数据 Flume概述 官网:flume.apache.org Flume是分布式、高可靠、高可用的服务,用于分布式地海量日志地高效地收集、聚合、移动地系统 Webserver(源端)=>flume=>hdfs(目的地) 设计目标: 1) 可靠性 2) 扩展性 3) 管理性 Flume架构及核心组件: 1) Source 收集 2) Channel 聚集 3) Sinks 输出原创 2020-08-23 17:27:18 · 1154 阅读 · 0 评论