1:电商分析数据来源
上报服务:从已有的业务系统中获取数据
日志数据:从已有的业务系统中通过flume获取数据
数据库数据:从关系型数据库中获取数据(mysql、oracle)
2:获取不同源数据,将数据上传到kafka消息队列中。
3:flink中kafka消息队列中获取数据,对数据级别进行处理
实时处理、批处理
4:分析后的数据进行存储,存储引擎可以是redies、hbase中
5:将关系型数据库中的数据通过sqoop导入到hive中做离线处理,将处理后的结果存储到hbase中
6:展示服务,调用后端的接口。
项目框架结构:


本文详细介绍电商行业数据分析的全过程,从数据收集(业务系统、日志、数据库),利用Kafka、Flink进行实时与批处理,再到存储(Redis、HBase)、离线处理(Hive、HBase)及展示服务搭建,构建全面的数据分析框架。
961





