数据仓库构建
数仓架构图:
数据仓库的三个阶段:
第一阶段:
使用大量成熟的开源框架,主要是离线批处理为主,外围系统自研能力较弱,数据量和集群资源少。
第二阶段:
使用开源+自研方式,有自己的方法论和建模体系,有完善的元数据管理,数据质量监控。能有效支持离线实时需求
第三阶段:
自研通用一站式大数据处理平台,有完善的数仓理论基础和外围工具,有完善的数据共享机制和权限管理
趋势:
工具智能、平台完善。
实时和离线一体化,技术不是障碍。
数据膨胀速度块,吞噬大量计算资源
数据仓库痛点:
痛点1:临时取数需求占用数仓人员大部分时间
痛点2:数仓规范和流程不一致,跨部门合作困难
痛点3:指标口径不一致导致数据可信度下降
痛点4:烟囱式开发形成数据孤岛和重复计算
痛点5:数据膨胀导致计算资源紧张,出数时间得不到保障
痛点6:异常排查时间和修复时间长
痛点7:数据安全和数据共享矛盾不可调和
痛点8:产出形式单一
痛点9:业务需求响应不及时
数据仓库痛点解决方案:
1->自助取数据+OLAP系统
2->建模规范,开发规范
3->给定指标字典
4->给定指标字典,建模规范
5->数据产品服务化,数据规范
6->元数据与数据质量监控
7->数据分级,权限管理
8->数据产品服务化
9->规范化,产品服务化