大数据数据分层及每层的作用
大数据架构通常采用分层设计,每层有明确的职责和功能。以下是典型的大数据分层架构及各层的作用:
1. 数据源层 (Data Source Layer)
- 作用:原始数据的来源
- 包含内容:
- 业务数据库(MySQL, Oracle等)
- 日志文件(服务器日志, 应用日志)
- 传感器数据(IoT设备)
- 第三方数据(API, 合作伙伴数据)
- 社交媒体数据
2. 数据采集层 (Data Ingestion Layer)
- 作用:负责从各种数据源高效、可靠地收集数据
- 常用技术:
- 批量采集:Sqoop, Flume
- 实时采集:Kafka, Flume, Pulsar
- 变更数据捕获(CDC):Debezium, Canal
3. 数据存储层 (Data Storage Layer)
- 作用:提供原始数据和加工后数据的存储
- 包含内容:
- 原始数据存储:HDFS, S3, OSS(存储未经加工的原始数据)
- 结构化数据存储:HBase, Cassandra
- 数据湖:Delta Lake, Iceberg, Hudi
- 数据仓库:Hive, Greenplum, ClickHouse
4. 数据处理层 (Data Processing Layer)
- 作用:对数据进行清洗、转换和计算
- 包含内容:
- 批处理:MapReduce, Spark, Hive
- 流处理:Flink, Spark Streaming, Storm
- 图计算:GraphX, Giraph
- 机器学习:TensorFlow, PyTorch(集成)
5. 数据服务层 (Data Service Layer)
- 作用:为上层应用提供统一的数据访问接口
- 包含内容:
- 数据API服务
- 即席查询服务(Presto, Impala)
- OLAP服务(Kylin, Druid)
- 元数据管理(Atlas, DataHub)
6. 数据应用层 (Data Application Layer)
- 作用:直接面向业务的数据产品和应用
- 包含内容:
- 数据可视化(Tableau, Superset)
- 报表系统
- 推荐系统
- 风控系统
- 用户画像
7. 数据治理层 (Data Governance Layer)(横向贯穿各层)
- 作用:保障数据质量和安全
- 包含内容:
- 数据质量管理(Griffin, Deequ)
- 数据血缘追踪
- 数据安全与权限管理(Ranger, Sentry)
- 数据标准管理
常见数据分层模型
1. Lambda架构(批流结合)
- 批处理层(Batch Layer)
- 速度层(Speed Layer)
- 服务层(Serving Layer)
2. Kappa架构(纯流处理)
- 流处理层(Stream Processing)
- 服务层(Serving Layer)
3. 数据仓库分层(典型5层)
- ODS(Operation Data Store)层:原始数据层
- DWD(Data Warehouse Detail)层:明细数据层
- DWS(Data Warehouse Summary)层:汇总数据层
- ADS(Application Data Store)层:应用数据层
- DIM(维度层):维度数据
这种分层设计实现了数据从原始到加工的逐步处理,每层都有明确的输入、处理和输出,便于数据的管理、维护和使用。
大数据架构分层及其功能解析
1073

被折叠的 条评论
为什么被折叠?



