大数据项目中如何实现架构选型和集群规划?
1.处理流程
- 数据源
关系型数据库
表:订单,用户,地址。。。
日志文件: 页面数据、埋点数据
- 数据采集
sqoop、kettle flume shell
.
- 数据存储:
HDFS、Hive、HBASE
- 数据清洗
Mapreduce、hive、sparkCore
- 数据处理(分析)
Hive、MapReduce
- 数据应用
展示
2.架构逻辑
(1)用户访问不同的客户端,触发不同的SDK(前端、IOS、Android)
(2)SDK收集所有需要的数据,发送给nginx日志服务器(后台开发)
(3)nginx服务器接收SDK发送过来的日志,并记录下来(后台开发)
(4)使用flume采集所有日志节点上的数据到HDFS统一存放
(5)使用MapReduce对数据进行ETL
(6)使