数仓概念
数据仓库(Data Warehouse),是为企业所有决策制定过程,提供所有系统数据支持的战略集合。
通过对数据仓库中数据的分析,可以帮助企业,改进业务流程、控制成本、提高产品质量等。
数据仓库,并不是数据的最终目的地,而是为数据最终的目的地做好准备。这些准备包括对数据的:清洗,转义,分类,重组,合并,拆分,统计等等。 
项目需求分析
一、项目需求
1.用户行为数据采集平台搭建
2.业务数据采集平台搭建
3.数据仓库维度建模
4.分析,用户、流量、会员、商品、销售、地区、活动等电商核心主题,统计的报表指标近100个。完全对比中型公司
5.采用即席查询工具,随时进行指标分析
6.对集群性能进行监控,发生异常需要报警
7.元数据管理
8.质量监控
二、思考题
1、项目技术如何选型?
2、框架版本如何选型(Apache、CDH、HDP)
3、服务器使用物理机还是云主机?
4、如何确认集群规模?(假设每台服务器8T硬盘成本是否吼得住)
技术选型
技术选型主要考虑因素:数据量大小、业务需求、行业内经验、技术成熟度、开发维护成本、总成本计算
| 数据采集传输 | Flume,Kadka,Sqoop,Logstash,DataX |
| 数据传输 | MySql,HDFS,HBase,Redis,MongoDB |
| 数据计算 | Hive,Tez,Spark,Flink,Storm |
| 数据查询 | Presto,Druid,Impala,Kylin |
| 数据可视化 | Echarts,Superset,QuickBI,DataV |
| 任务调度 | Azkaban,Oozie |
| 集群监控 | Zabbix |
| 元数据管理 | Atlas |
| 数据质量监控 | Criffin |
系统数据流程设计

框架版本选择

服务器选型
???
本文阐述了数据仓库的概念,强调其对企业决策支持的重要性。详细介绍了数仓搭建的需求,包括用户行为与业务数据采集、维度建模、核心主题统计、即席查询、性能监控、元数据与质量监控。探讨了技术选型、数据处理与查询工具,以及系统数据流程设计。
80

被折叠的 条评论
为什么被折叠?



