
数据仓库
文章平均质量分 83
HW_870754395
这个作者很懒,什么都没留下…
展开
-
hive知识点整理
hive知识点整理1. 你知道哪些窗口函数及应用场景?1.1 分析函数1.2 窗口函数1. 你知道哪些窗口函数及应用场景?1.1 分析函数rank():返回数据项在分组中的排名,排名相等会在名次中留空位dense_rank():返回数据项在分组中的排名,排名相等不会在名次中留空位ntile():返回分片后的值row_number():编号,从1开始,为每条记录返回一个数字row_number() over (partition by col1 order by col2)根据col1分组转载 2021-03-03 16:49:19 · 608 阅读 · 0 评论 -
数据仓库知识点整理
数据仓库知识点整理1. 维表和宽表的考查(主要考察维表的使用及维度退化手法)1.1 宽表1.2 维度退化2. 数仓表命名规范3. 拉链表的使用场景2.1 全量表2.2 增量表2.3 拉链表2.4 如何选择4. 一亿条数据查的很慢,怎么查快一点5. 有什么维表6. 数据源都有哪些7. 你们最大的表是什么表,数据量多少8. 数仓架构体系9.数据平台是怎样的,用到了阿里的那一套吗?10. 你了解的调度系统有那些?,你们公司用的是哪种调度系统11. 你们公司数仓底层是怎么抽数据的?12. 为什么datax抽数数要比原创 2021-02-03 21:55:23 · 1334 阅读 · 0 评论 -
数据仓库-外围系统建设
数据仓库-元数据管理系统元数据管理系统是外部了解数仓的门户入口,一个好的元数据系统至少包含如下信息:1. 表信息表英文名、中文注释、表状态(在线/下线)2. 字段信息字段类型、英文名、中文名、字段注释、保密级别(机密/保密/一般)、统计逻辑说明3. 负责人信息业务/开发负责、所在部门4. 分区信息分区名、分区大小、分区记录条数、生成分区的时间5. 血缘信息表上游、下游节点信息6. 代码信息生成该表对应的代码地址超链接7. 存储信息总表大小、波动情况8. 热度信息标识被下游依原创 2021-01-11 13:30:55 · 668 阅读 · 0 评论 -
大数据-数据仓库维度建模
数据仓库维度建模一、维度建模(dimensional modeling)1. 维度表(dimension)2. 事实表(fact table)二、维度建模的三种模式1. 星形模式(Star Schema)2. 雪花模式(Snowflake Schema)3. 星座模式(Fact Constellations Schema)4. 模式对比一、维度建模(dimensional modeling)是...原创 2019-05-15 11:09:22 · 2064 阅读 · 0 评论 -
数据仓库系列(一)
数据仓库一、 什么是数据仓库?二、数据仓库的特点1. 主题性2. 集成性3. 稳定性4. 时变性三、数据仓库组件1. 业务系统2. ETL(Extract-Transform-Load)3. 前端应用四、主流的数据仓库1. Hive介绍(1)HDFS(2)MapReduce2. Hive的优势(1)免费3. 知名的商业数据仓库(1)Teradata优点(2)Teradata缺点一、 什么是数据仓...原创 2019-05-15 09:52:05 · 589 阅读 · 0 评论 -
OLAP和OLTP的区别
OLAP和OLTP的区别数据处理分类:OLAP(Online Analytical Processing,联机分析处理)OLTP(Online transaction processing,联机事务处理)数据处理分类:OLAP(Online Analytical Processing,联机分析处理)数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。实时...转载 2019-06-22 17:25:43 · 222 阅读 · 0 评论 -
数据仓库之事实表
数据仓库之事实表一、事实表分类(1) 事务事实表2. 周期快照事实表3. 累积快照事实表二、三种事实表的区别一、事实表分类事实表是指其中保存了大量业务度量数据的表。事实表中的度量值一般称为事实。事实表中最有用的事实就是数字类型的事实和可加类型的事实。事实表的粒度决定了数仓中数据的详细程度。(1) 事务事实表一条记录代表了业务系统中的一个事件。事务出现后,就会在事实中出现一条记录。以订单域举...原创 2019-06-04 17:38:37 · 4450 阅读 · 0 评论 -
数据仓库之拉链表
数据仓库之拉链表一、常用表介绍1. 全量表2. 增量表3. 拉链表4. 流水表5. 拉链表 VS 流水表二. 拉链表适用情况及优点1. 适用情况2. 优点三. 拉链表举例(订单域)1. 订单表结构2. 为实现订单表存储,常用解决方案及存在问题(1)快照表(2)全量历史表==(3)历史拉链表==一、常用表介绍1. 全量表每天的所有的最新状态的数据2. 增量表每天的新增数据3. 拉链表维...转载 2019-06-03 21:54:40 · 6044 阅读 · 0 评论 -
大数据之数据仓库分层
大数据之数据仓库分层1. 什么是数据分层?2. 数据分层的好处一种通用的数据分层设计3. 举例4. 各层会用到的计算引擎和存储系统5. 大数据相关基础概念1. 什么是数据分层?数据分层是一套行之有效的数据组织和管理方法,使得数据体系更有序。2. 数据分层的好处(1)清晰数据结构每一个数据分层都有它的作用域和职责,在使用表的时候能更方便的定位和理解。(2)减少重复开发规范数据分层,开发...原创 2019-06-03 10:32:18 · 5697 阅读 · 0 评论 -
大数据之数据质量
大数据之数据质量一、数据质量评估1. 完整性2. 准确性3. 及时性4. 一致性二、如何提升数据质量1. 事前定义数据的监控规则2. 事中监控和控制数据生产过程3. 事后分析和问题跟踪一、数据质量评估1. 完整性2. 准确性3. 及时性4. 一致性二、如何提升数据质量1. 事前定义数据的监控规则提炼规则:梳理对应指标、确定对象(多表、单表、字段)、通过影响程度确定资产等级、质量规则...原创 2019-06-01 13:54:12 · 9130 阅读 · 0 评论