1.
做数据人,不做打工人
怎么帮助数据仓库的人员快速成长?
▍1.1 介绍
什么是数据仓库
数据仓库和数据库,数据湖和数据中台的差异
数据仓库需要那些组建
离线数仓和实时数仓的介绍
数据产品有那些
完整的数据仓库该怎么搭建?(标准,模型,数据链路,设计思路,业务形态)
数据仓库演进过程0-1,1-2的不同阶段建设方向
▍1.2 数据仓库人员需求
数仓(离线+实时,数据基础,数据体系建设)
数据分析 (a/b实验分析,漏斗转化,分类统计,业务功能问题等)
数据挖掘(基础算法和主流算法)
数据产品(产品思维)
运营+商业化(业务思维)
语言java,python,sql
▍1.3 基础问题
为什么公司需要做数据仓库?
数据仓库到底是做什么的?
做数据仓库人员都是SQLbaby吗?
做数据仓库的天花板有多高?
数据仓库在整个大数据体系的重要性
▍1.4 实践问题
数仓模型设计遵循哪些原则,有哪些坑需要避开
之前在别的行业比如金融,进入到新的行业比如美团,抖音,面对新的业务场景,规划数仓,从何处快速入手
阿里经典数仓分层4层架构,还有的公司5层,哪种分层体系更优,为啥划分5层
在数据资产目录,元数据,数据地图产品化之前,都有哪些维护方式,便于业务了解数据情况
在没有数据质量系统产品化前,入仓前,跑批中,跑批后都需要监控哪些指标,保证数据质量实现方式都有哪些
数仓构建好之后可以为业务提供哪些服务,可以提供哪些数据产品,这些服务和数据产品一般基于什么组件实现,参照方法论。
前期业务扩张,烟筒式开发,如何去优化数仓,减少存储浪费和资源
数仓开发前,先定标准,规范,都有哪些标准,规范
当前公司离线数仓和实时数仓作业哪个占比更多,实时数仓常见的应用场景和实现技术
数仓从业者随着年龄增长,如何保持自己的核心竞争力,避免只会sql,未来的发展方向
数仓分层,每层分别建不同的数据库(每一层使用各种的库)还是各个层在一个数据库里使用前缀区分
做大宽表时,各个维度表字段是否都需要加在大宽表上
用户画像的行为画像一般怎么做比较好,使用工具定义规则生成还是手动sql统计指标做为行为标签
实时数仓技术架构实现
怎么核对指标的准确性,怎么做数据质量
客户端埋点体系的架构实现
服务端埋点一般有哪些
nginx日志、客户端埋点日志、服务端埋点日志、mysql binlog日志,一般怎么搭配使用
数仓表数据一般保留多久,而每个日期分区全量表快照表一般保留多久
单表单日全量快照千万,亿级别,在存储有限的前提下,如何优化明细层存储,离线抽数时间
源系统mysql随着业务增长压力大,分库分表,数仓如何抽数整合,
非结构化数据xml json格式入仓进行清洗结构化数据,原非结构化数据动态变化不定期新增,数仓有啥好的方案
数据安全,敏感数据确认标准,常用处理方法,一般在数仓哪层操作,身份证号,手机号加密业务分析进行撞库匹配,如何加密
数据常见分级标准
数仓表常见存储格式,orc还是parquet更优,不同层次存储格式是否一致,ods是否可以用textfile
数仓构建表方式采用外部表还是内部表更优
.数仓分区表常用分区字段,按日分区10位好还是8位日期
数仓常见表格式,增量表,全量表,快照表,大厂用拉链的表的多,有啥特定应用场景
标签体系,指标体系构建在数仓哪层
数据漂移常见处理方法
数据入仓,常做哪些校验
目标公司数仓离线是sqoop多,还是读取binlog落hdfs多
离线数仓跑批目前公司基于mr tez spark哪个更多
▍1.5 数据仓库基础
数据模型讲解
1:kimball建模
2:3NF=ER
3:星形
4:雪花
5:星座
数据仓库分层思想
1:传统分层
2:阿里巴巴数据模型
数据仓库搭建规范
1:基础规范-表,字段,分区,定义,注释等
2:打点规范
3:数据规范
4:调度任务规范
5:数据使用规范
数据仓库架构图设计和组建选择
v1版本-基础数据仓库搭建
v2版本-数据仓库体系搭建
v3版本-自动化数据仓搭建
数据仓库名词讲解
▍1.6 数据体系
数据安全
元数据管理
数据质量管理
数据资产管理
数据指标体系
用户画像体系
数据打点规范
▍1.7 数据仓库与业务实践
AARRR模型设计和业务定义
▍1.8 必须要懂的知识体系理论
kafka
spark
hive-mr
hdfs
hbase
Flunk
clickhouse
数据结构
基础算法
SQL高级玩法
公众号回复:“资料全集”,海量PPT等你来拿。