数据湖概念

数据库, 数据仓库, 数据集市,数据湖,数据中台_迷路剑客的博客-优快云博客_数据仓库数据集市

  • 数据湖是一个概念,基本的架构构成:分布式对象存储 多模态计算引擎 数据管理
  • 存储的数据视角:
    • 多元异构的原始数据;
    • 用于报告、可视化、探索分析、机器学习的转换数据。
  • 应该具备的能力:
    • 数据要转换,那就需要有支撑海量数据清洗转换的分布式计算能力;
    • 数据要产生价值,那就需要有技术门槛低的AI平台来做探索分析;
  • 数据治理的视角:
    • 不同的海量数据共存,那就需要精细化数据治理。
    • 数据要流出:就需要有统一的服务管理、权限管理
  • 大数据基础设置架构:
    • Hadoop离线计划
    • Lambda
    • Kappa
    • 数据湖:新一代大数据基础架构。除了大数据平台所拥有的各类基础能力之外,数据湖更强调对于数据的管理、治理和资产化能力
  • 适用人群:
    • 数据湖存有完整的原始数据,适合数据科学家和数据分析师
    • 其它人员更适合于数据视图和数据仓库
  • 数据湖与数据仓库
    • 数据仓库应该作为数据湖的上层应用存在,数据湖根据各类业务应用需求,将原始数据进行加工处理,形成可再次利用的中间结果;当中间结果的数据模式(Schema)相对固定后,可以将中间结果推送至数据仓库 (即 DataHouse

所以:从这些特性上小结:理解为一套企业级的大数据平台岂可? 包含有大数据基础平台技术支撑,有数据集中管控,分层治理的特性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值