
HDFS:分布式数据存储组件,主要用于数据平台数据的存储,存储现有历史行为数据以及服务端数据。构建数据仓库的基础存储单元
数据聚合层:对原始数据进行有目的的清洗转合,基于数据模型以及一些基础业务场景做简单数据聚合使用。
管理平台:任务的调度,元数据的管理,任务的监控报警。
数据源:
- DB数据库:来自服务端的数据
- Flume:埋点事件数据
- API:各个服务接口数据
- Kafka:服务消息数据
- Kettle:数据壶,数据etl工具,将数据格式化输出
- dataX阿里数据同步工具,主要用于各个部门的数据同步任务
ETL任务:数据清洗,抓取,转换的过程,主要处理各个数据传上来的数据,将数据标准化输出到ODS层
数据服务层&tool:数据的高聚合层主要有以下模块,
- 数据仓库:全部数据的聚合位置,包括各个实时表,维度表等
- 数据集市:基于各个部门不同业务的数据聚合
- Hbase:列式数据库,用于用户画像存储
- ES&solr:索引服务,集群创建索引,提高数据查找效率
- Hive:数据仓库搭建服务,可支持sql查询,效率高

该博客详细介绍了数据分析架构,包括HDFS作为数据存储基础,数据聚合层的清洗和聚合,管理平台的任务调度与监控,以及数据源如DB、Flume、Kafka等。数据服务层涵盖数据仓库、数据集市、Hbase、ES&Solr和Hive等,最后讨论了数据应用层的各种场景,如推荐、挖掘、分析和报表系统。
最低0.47元/天 解锁文章

5万+

被折叠的 条评论
为什么被折叠?



