要做数据人,不做打工人|P8武哥数据仓库学习大纲

本文深入探讨数据仓库的构建、发展和应用,包括数据仓库与数据库、数据湖和数据中台的区别,离线与实时数仓的搭建,以及数仓人员所需技能。讲解数据仓库的重要性和在大数据体系中的位置,分享数仓模型设计原则、数据质量监控和业务服务。同时,阐述数据安全、元数据管理和数据质量管理,并讨论数据仓库如何与业务实践相结合,运用AARRR模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 

做数据人,不做打工人

怎么帮助数据仓库的人员快速成长?

1.1 介绍

  • 什么是数据仓库

  • 数据仓库和数据库,数据湖和数据中台的差异

  • 数据仓库需要那些组建

  • 离线数仓和实时数仓的介绍

  • 数据产品有那些

  • 完整的数据仓库该怎么搭建?(标准,模型,数据链路,设计思路,业务形态)

  • 数据仓库演进过程0-1,1-2的不同阶段建设方向

1.2 数据仓库人员需求

  • 数仓(离线+实时,数据基础,数据体系建设)

  • 数据分析 (a/b实验分析,漏斗转化,分类统计,业务功能问题等)

  • 数据挖掘(基础算法和主流算法)

  • 数据产品(产品思维)

  • 运营+商业化(业务思维)

  • 语言java,python,sql

1.3 基础问题

  • 为什么公司需要做数据仓库?

  • 数据仓库到底是做什么的?

  • 做数据仓库人员都是SQLbaby吗?

  • 做数据仓库的天花板有多高?

  • 数据仓库在整个大数据体系的重要性


1.4 实践问题

  • 数仓模型设计遵循哪些原则,有哪些坑需要避开

  • 之前在别的行业比如金融,进入到新的行业比如美团,抖音,面对新的业务场景,规划数仓,从何处快速入手

  • 阿里经典数仓分层4层架构,还有的公司5层,哪种分层体系更优,为啥划分5层

  • 在数据资产目录,元数据,数据地图产品化之前,都有哪些维护方式,便于业务了解数据情况

  • 在没有数据质量系统产品化前,入仓前,跑批中,跑批后都需要监控哪些指标,保证数据质量实现方式都有哪些

  • 数仓构建好之后可以为业务提供哪些服务,可以提供哪些数据产品,这些服务和数据产品一般基于什么组件实现,参照方法论。

  • 前期业务扩张,烟筒式开发,如何去优化数仓,减少存储浪费和资源

  • 数仓开发前,先定标准,规范,都有哪些标准,规范

  • 当前公司离线数仓和实时数仓作业哪个占比更多,实时数仓常见的应用场景和实现技术

  • 数仓从业者随着年龄增长,如何保持自己的核心竞争力,避免只会sql,未来的发展方向

  • 数仓分层,每层分别建不同的数据库(每一层使用各种的库)还是各个层在一个数据库里使用前缀区分

  •  做大宽表时,各个维度表字段是否都需要加在大宽表上

  • 用户画像的行为画像一般怎么做比较好,使用工具定义规则生成还是手动sql统计指标做为行为标签

  • 实时数仓技术架构实现

  • 怎么核对指标的准确性,怎么做数据质量

  • 客户端埋点体系的架构实现

  • 服务端埋点一般有哪些

  •  nginx日志、客户端埋点日志、服务端埋点日志、mysql binlog日志,一般怎么搭配使用

  •  数仓表数据一般保留多久,而每个日期分区全量表快照表一般保留多久

  • 单表单日全量快照千万,亿级别,在存储有限的前提下,如何优化明细层存储,离线抽数时间

  • 源系统mysql随着业务增长压力大,分库分表,数仓如何抽数整合,

  • 非结构化数据xml json格式入仓进行清洗结构化数据,原非结构化数据动态变化不定期新增,数仓有啥好的方案

  • 数据安全,敏感数据确认标准,常用处理方法,一般在数仓哪层操作,身份证号,手机号加密业务分析进行撞库匹配,如何加密

  • 数据常见分级标准

  • 数仓表常见存储格式,orc还是parquet更优,不同层次存储格式是否一致,ods是否可以用textfile

  • 数仓构建表方式采用外部表还是内部表更优

  • .数仓分区表常用分区字段,按日分区10位好还是8位日期

  • 数仓常见表格式,增量表,全量表,快照表,大厂用拉链的表的多,有啥特定应用场景

  • 标签体系,指标体系构建在数仓哪层

  • 数据漂移常见处理方法

  • 数据入仓,常做哪些校验

  • 目标公司数仓离线是sqoop多,还是读取binlog落hdfs多

  • 离线数仓跑批目前公司基于mr tez spark哪个更多


1.5 数据仓库基础

  • 数据模型讲解

           1:kimball建模

           2:3NF=ER

           3:星形

           4:雪花

           5:星座

  • 数据仓库分层思想

           1:传统分层

           2:阿里巴巴数据模型

  • 数据仓库搭建规范

           1:基础规范-表,字段,分区,定义,注释等

           2:打点规范

           3:数据规范

           4:调度任务规范

           5:数据使用规范

  • 数据仓库架构图设计和组建选择

            v1版本-基础数据仓库搭建

            v2版本-数据仓库体系搭建

            v3版本-自动化数据仓搭建

  • 数据仓库名词讲解

1.6 数据体系

  • 数据安全

  • 元数据管理

  • 数据质量管理

  • 数据资产管理

  • 数据指标体系

  • 用户画像体系

  • 数据打点规范

1.7 数据仓库与业务实践

 AARRR模型设计和业务定义

1.8 必须要懂的知识体系理论

  • kafka

  • spark

  • hive-mr

  • hdfs

  • hbase

  • Flunk

  • clickhouse

  • 数据结构

  • 基础算法

  • SQL高级玩法

公众号回复:“资料全集”,海量PPT等你来拿。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值