大数据数据分层及每层的作用

大数据架构分层及其功能解析

大数据数据分层及每层的作用

大数据架构通常采用分层设计,每层有明确的职责和功能。以下是典型的大数据分层架构及各层的作用:

1. 数据源层 (Data Source Layer)

  • 作用:原始数据的来源
  • 包含内容
    • 业务数据库(MySQL, Oracle等)
    • 日志文件(服务器日志, 应用日志)
    • 传感器数据(IoT设备)
    • 第三方数据(API, 合作伙伴数据)
    • 社交媒体数据

2. 数据采集层 (Data Ingestion Layer)

  • 作用:负责从各种数据源高效、可靠地收集数据
  • 常用技术
    • 批量采集:Sqoop, Flume
    • 实时采集:Kafka, Flume, Pulsar
    • 变更数据捕获(CDC):Debezium, Canal

3. 数据存储层 (Data Storage Layer)

  • 作用:提供原始数据和加工后数据的存储
  • 包含内容
    • 原始数据存储:HDFS, S3, OSS(存储未经加工的原始数据)
    • 结构化数据存储:HBase, Cassandra
    • 数据湖:Delta Lake, Iceberg, Hudi
    • 数据仓库:Hive, Greenplum, ClickHouse

4. 数据处理层 (Data Processing Layer)

  • 作用:对数据进行清洗、转换和计算
  • 包含内容
    • 批处理:MapReduce, Spark, Hive
    • 流处理:Flink, Spark Streaming, Storm
    • 图计算:GraphX, Giraph
    • 机器学习:TensorFlow, PyTorch(集成)

5. 数据服务层 (Data Service Layer)

  • 作用:为上层应用提供统一的数据访问接口
  • 包含内容
    • 数据API服务
    • 即席查询服务(Presto, Impala)
    • OLAP服务(Kylin, Druid)
    • 元数据管理(Atlas, DataHub)

6. 数据应用层 (Data Application Layer)

  • 作用:直接面向业务的数据产品和应用
  • 包含内容
    • 数据可视化(Tableau, Superset)
    • 报表系统
    • 推荐系统
    • 风控系统
    • 用户画像

7. 数据治理层 (Data Governance Layer)(横向贯穿各层)

  • 作用:保障数据质量和安全
  • 包含内容
    • 数据质量管理(Griffin, Deequ)
    • 数据血缘追踪
    • 数据安全与权限管理(Ranger, Sentry)
    • 数据标准管理

常见数据分层模型

1. Lambda架构(批流结合)

  • 批处理层(Batch Layer)
  • 速度层(Speed Layer)
  • 服务层(Serving Layer)

2. Kappa架构(纯流处理)

  • 流处理层(Stream Processing)
  • 服务层(Serving Layer)

3. 数据仓库分层(典型5层)

  1. ODS(Operation Data Store)层:原始数据层
  2. DWD(Data Warehouse Detail)层:明细数据层
  3. DWS(Data Warehouse Summary)层:汇总数据层
  4. ADS(Application Data Store)层:应用数据层
  5. DIM(维度层):维度数据

这种分层设计实现了数据从原始到加工的逐步处理,每层都有明确的输入、处理和输出,便于数据的管理、维护和使用。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值