
数仓理论
书藏相关
洛洛洛洛洛洛洛
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据质量
数据质量是数据分析结论有效性和准确性的基础。主要从四方面进行评估:完整性、准确性、一致性和及时性1.完整性数据的记录和信息是否完整、是否存在缺失的情况,缺失主要包括记录的缺失和记录中某个字段的缺失。2.准确性数据中心记录的信息和数据是否准确,是否存在异常或者错误的信息3.一致性在跨度很大的数仓体系中有很多业务数仓分支,对于同一份数据保证在各个分支相同4.及时性保证数据及时产出才能保证数据的价值措施:1.任务优先级调度是树形结构,配置叶子节点的优先级之后会向上传递到上游节点,叶子结点通原创 2020-10-24 19:03:35 · 675 阅读 · 0 评论 -
数仓-维度建模
文章目录一、维度建模介绍1.维度建模:2.维度建模的好处3.事实表1.事务型事实表2.周期快照事实表3.累计快照事实表4.维度表5.维度建模过程6.缓慢变化维(scd)一、维度建模介绍1.维度建模:是一种将数据结构化的逻辑设计方案,将客观世界分成度量(事实表)和上下文(维度表),每一个业务模型都可以用维度建模表示。2.维度建模的好处易于业务用户理解,信息被分组到一致的业务分类中查询方便易于扩展3.事实表存储性能度量、一般来说每一个事实都是都是数值型的并且具有可加性的,事实表通常比较大(行比原创 2020-09-29 15:34:13 · 525 阅读 · 0 评论 -
电商数仓——数仓理论
文章目录一、数仓分层二、数仓理论2.1 维度表2.2事实表三、数仓建模3.1 ODS 层 (负责备份数据工作)3.2 DWD 层 (负责准备数据工作)3.3 DWS 层 (各个主题一天发生的行为数据)3.4 DWT 层 (从用户或商品产生到当前时刻累积的数据)3.5 ADS 层 (分析具体报表,直观数据)一、数仓分层ODS(原始数据层) 不做处理,存放原始数据,创建分区表(方便管理),压缩(hdfs中数据已是压缩数据)(起备份作用)DWD(明细数据层) 粒度(月、天等)与原始表一致 进行简单数据清洗原创 2020-06-09 15:55:46 · 912 阅读 · 0 评论 -
电商数仓项目报错及解决方法
1.hive使用tez引擎,按照教程设置后仍出现,FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.tez.TezTask解决办法:修改tez的配置文件,tez-default-template.xml中tez.client.asynchronous-stop为false;重启集群 <property> <name>tez.client.asynchronous-stop&原创 2020-06-08 22:49:49 · 783 阅读 · 0 评论 -
电商数仓-使用sqoop将MySQL数据导入hdfs
导表分三类:#!/bin/bash时间的处理:T+1模式 支持了自己输入的时间 脚本的第二个参数:时间sqoop参数的基本函数($1=表名 $2=过滤条件)全量 select * from 表 where 1=1增量 select * from 表 where createtime paytime = 当前时间新增和变量 select * from 表 where createtime or operatim =当前时间脚本输入的第一个参数 是表名字或者 first原创 2020-06-08 15:36:31 · 178 阅读 · 0 评论 -
电商数仓项目-用户行为采集注意事项
文章目录flume一、组成结构二、三个器三、优化及挂了的处理方法kafka(20件事)一、基础二、挂了三、丢失四、重复五、积压六、优化1.生成不同日期数据时,一定要先停止集群,再去修改时间,否则flume消费不到kafka的数据flume一、组成结构1、sourcetaildir:多目录、 断点续传 挂了之后重启 如果数据重复,再次修改源码,修改成事务; 下级去重(hive,spark去重) taildir 默认不支持递归遍历读取文件,需要修改源码2、channel原创 2020-06-07 17:17:16 · 249 阅读 · 0 评论