Spark 实时电商数据分析可视化系统是一个经典的大数据应用项目,技术栈主要有 Flume、Kafka、Spark Streaming、Flask 等,帮助大家了解和运用一些当前热门的大数据处理组件来亲自动手搭建一套大数据处理平台框架和熟悉大数据项目的基础开发流程。
数据采集与传输
实验介绍
本实验将带领大家通过实验楼平台所提供的线上环境实现项目前期的数据采集与传输模块,以此对 Flume 和 Kafka 这两个组件在项目中的应用有一定的了解。
知识点
- Flume 和 Kafka 基本操作命令
- Kafka 中 Topic 的创建
- Flume 作为 Kafka 数据源的配置
- Zookeeper、Kafka、Flume 整合使用
- Flume 与 Kafka 整合的优点
- 数据消费
技术介绍及其在项目中的运用
Zookeeper 简介
为分布式应用提供支持的一种协调分布式服务,项目中主要用于管理 Kafka。除此之外还可提供统一配置管理、域名集中访问、分布式锁和集群管理等服务。
Flume 简介
一种日志采集系统,具备高可用、高可靠和分布式等优点,可定制各类数据发送方,用于数据的收集;传输过程中,可对数据进行简单处理,并可定制数据接收方,具备事务性,只有当数据被消费之后才会被移除,项目中接收方定制为 Kafka。
在使用 Flume 的时候,可编写自定义的过滤器进行初次的数据清洗,减少后期 ETL 的压力,但是此项目用的数据集较为简单&#