HDFS:分布式数据存储组件,主要用于数据平台数据的存储,存储现有历史行为数据以及服务端数据。构建数据仓库的基础存储单元
数据聚合层:对原始数据进行有目的的清洗转合,基于数据模型以及一些基础业务场景做简单数据聚合使用。
管理平台:任务的调度,元数据的管理,任务的监控报警。
数据源:
- DB数据库:来自服务端的数据
- Flume:埋点事件数据
- API:各个服务接口数据
- Kafka:服务消息数据
- Kettle:数据壶,数据etl工具,将数据格式化输出
- dataX阿里数据同步工具,主要用于各个部门的数据同步任务
ETL任务:数据清洗,抓取,转换的过程,主要处理各个数据传上来的数据,将数据标准化输出到ODS层
数据服务层&tool:数据的高聚合层主要有以下模块,
- 数据仓库:全部数据的聚合位置,包括各个实时表,维度表等
- 数据集市:基于各个部门不同业务的数据聚合
- Hbase:列式数据库,用于用户画像存储
- ES&solr:索引服务,集群创建索引,提高数据查找效率
- Hive:数据仓库搭建服务,可支持sql查询,效率高