
数据仓库01
数据仓库工程师知识技能学习
静听山水
Just do it
展开
-
阿里云的日志服务
SLS通常指的是“Serverless Logging Service” 或者是阿里云的日志服务(Log Service)。在云计算和大数据处理领域中,尤其是在提到阿里云时,SLS往往指的是阿里云的日志服务。总之,阿里云日志服务是一个强大的工具,适用于需要处理和分析大规模日志数据的企业和个人开发者。通过简化日志管理流程,它有助于提高运维效率、优化性能监控,并支持基于日志数据的商业智能决策。是一个完全托管的日志大数据平台,提供从日志采集、消费到查询分析、可视化、告警以及投递等一站式服务。原创 2025-01-04 08:35:29 · 554 阅读 · 0 评论 -
常见数据同步工具之实时同步
常见数据同步工具之实时同步原创 2024-10-07 22:05:43 · 177 阅读 · 0 评论 -
详解大厂实时数仓建设
详解大厂实时数仓建设转载 2024-10-07 22:04:05 · 71 阅读 · 0 评论 -
阿里巴巴MySQL规范
阿里巴巴MySQL规范,五千字版(建议收藏)转载 2024-10-07 21:37:40 · 66 阅读 · 0 评论 -
数据仓库建设规范
数据仓库建设规范转载 2024-10-07 21:40:08 · 38 阅读 · 0 评论 -
数据治理、数据集成
数据治理:数据集成概念全解(建议收藏)转载 2024-10-07 21:44:33 · 73 阅读 · 0 评论 -
数据治理-参考文档
数据仓库原创 2022-08-07 12:02:02 · 412 阅读 · 0 评论 -
SQL中DQL,DML,DDL,DCL,TCL的区别
数据库转载 2022-08-07 11:34:34 · 337 阅读 · 0 评论 -
数据集市的概念
数据仓库转载 2022-08-07 10:22:19 · 3299 阅读 · 0 评论 -
阿里:DataWorks一站式大数据开发治理平台
大数据平台原创 2022-08-07 00:10:49 · 1076 阅读 · 0 评论 -
数据库范式
数据仓库原创 2022-08-06 23:23:40 · 217 阅读 · 0 评论 -
退化维度含义
退化维度的技术。该技术减少维度的数量,简化维度数据仓库的模式。简单的模式比复杂的更容易理解,也有更好的查询性能。当一个维度没有数据仓库需要的任何数据时就可以退化此维度。需要把退化维度的相关数据迁移到事实表中,然后删除退化的维度。...原创 2022-02-27 19:42:55 · 487 阅读 · 0 评论 -
大数据名词科普
目录1、数据仓库2、数据集市3、数据孤岛4、数据湖5、数据中台6、宽表窄表1、数据仓库2、数据集市3、数据孤岛4、数据湖5、数据中台6、宽表窄表...原创 2022-02-20 16:02:20 · 958 阅读 · 0 评论 -
数仓分层明细
注意:数仓分层时一般至少要分以下3层,当然也可以分得更详细;常见的数据分层缩写如下:ODSDWADS原创 2022-02-20 15:07:58 · 1142 阅读 · 0 评论 -
数据仓库分层的原因和好处
按照数据流入流出的过程,数据仓库架构可以分为三层--源数据、数据仓库、数据应用。数仓分层原因1、用空间换时间通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量的冗余数据;2、增强扩展性不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大;3、分层管理通数据分层管理可以简化数据清洗的过程,因为把原来的一步工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我原创 2022-02-20 14:38:22 · 2581 阅读 · 0 评论 -
数据仓库的特性
1、面向主题数据仓库中的数据是按照一定的主题域进行组织的。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。而操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离。每一个主题基本对应一个宏观分析领域。主题(Subiect)是对应企业中某一宏观分析领域所涉及的分析对象(重点是分析的对象,对象,仔细理解一下对象的含义)。例如:"销售分析"就是一个分析领域,这个"销售分析"所涉及到的分析对象为商品、供应商、顾客、仓库等,那么数仓主题可以原创 2022-02-20 12:12:16 · 2175 阅读 · 0 评论 -
什么是数仓
数仓是一种思想,数仓是一种规范,数仓是一种解决方案。原创 2022-02-20 11:13:54 · 1984 阅读 · 0 评论 -
数据组织类型
维度建模按照数据组织类型划分可分为星型模型、雪花模型、星座模型。原创 2022-02-20 01:12:23 · 472 阅读 · 0 评论 -
维度建模之事实表
事实表分类:1、事务型事实表:每行代表实体的一个事物;例如:有效支付的订单表。2、周期型快照事实表:每行代表某时间周期的一个实体;例如:每日每个用户维度的订单聚合表。3、累积型快照事实表:每行代表一个实体的生命周期;例如:每个子订单的生命流程,包含下单支付时间,到货日期,确认收货日期,退货日期等...原创 2022-02-20 00:49:06 · 355 阅读 · 0 评论 -
缓慢变化维度(SCD)
SCD简介顾名思义,缓慢变化维度(slowly changing dimension, SCD)就是数据仓库维度表中,那些随时间变化比较不明显,但仍然会发生变化的维度。考虑以下两个情境:在员工维度表中,某员工原来在北京分公司工作,后来调往上海分公司,那么“工作地点”就是一个缓慢变化维度; 在采购维度表中,办公电脑原来从戴尔供应商处进货,后来换成了联想,那么“供应商”就是一个缓慢变化维度。处理缓慢变化维度是Kimball数仓体系中永恒的话题,因为数据仓库的本质,以及维度表在维度建模中的基础作用,我转载 2022-02-19 15:40:35 · 2038 阅读 · 0 评论 -
维度建模流程及注意事项
相关概念:退化维度的维度表可以被剔除,从而简化维度数据仓库的模式。因为简单的模式比复杂的更容易理解,也有更好的查询性能。当一个维度没有数据仓库需要的任何数据时就可以退化此维度。需要把退化维度的相关数据迁移到事实表中,然后删除退化的维度。维度属性也可以存储到事实表中,这种存储到事实表中的维度列被称为“退化维度”。与其他存储在维表中的维度一样 ,退化维度也可以用来进行事实表的过滤查询、实现聚合操作等。那么究竟怎么定义退化维度呢?比如说订单id,这种量级很大的维度,没必要用一张维度表来进行存储,而我们原创 2022-02-19 15:32:15 · 252 阅读 · 0 评论 -
行存储 VS 列存储
原文链接:https://blog.youkuaiyun.com/Xingxinxinxin/article/details/80939277概述目前大数据存储有两种方案可供选择:行存储(Row-Based)和列存储(Column-Based)。业界对两种存储方案有很多争持,集中焦点是:谁能够更有效地处理海量数据,且兼顾安全、可靠、完整性。从目前发展情况看,关系数据库已经不适应这种巨大的存储量和计算要求,基本是淘汰出局。在已知的几种大数据处理软件中,Hadoop的HBase采用列存储,MongoDB是文档型的转载 2021-10-31 19:12:40 · 188 阅读 · 0 评论 -
大数据开发:OLAP开源数据分析引擎简介
OLAP 的全称是OnLine Analytical ProcessingOLAP数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。典型的应用就是复杂的动态的报表系统。是数据仓库的核心部心,所谓数据仓库是对于大量已经由OLTP形成的数据的一种分析型的数据库,用于处理商业智能、决策支持等重要的决策信息;数据仓库是在数据库应用到一定程序之后而对历史数据的加工与分析,读取较多,更新较少,TPCH属于此类针对于不断新增的海量数据资源,企业需要通过及时地数据分析处...转载 2021-10-31 18:48:31 · 879 阅读 · 0 评论 -
数据仓库建设
数据仓库分层中的ODS、DWD、DWS1.数据仓库DW1.1简介Data warehouse(可简写为DW或者DWH)数据仓库,是在数据库已经大量https://mp.weixin.qq.com/s/k9XjVWadNzVj3h-P6DYX0Q转载 2021-09-10 16:02:51 · 144 阅读 · 1 评论 -
数据倾斜及其高效解决方法
数据倾斜及其高效解决方法_anshuai_aw1的博客-优快云博客_数据倾斜数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。数据倾斜是指:mapreduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千...https://blog.csdn.转载 2021-09-11 14:57:12 · 323 阅读 · 0 评论 -
拉链表小结
99.大数据面试指南1.0——拉链表的制作过程_哔哩哔哩_bilibili百度搜索:王傲旗的大数据之路可以关注我的博客!如果你有以下需求可以发私信给我 修改简历 面试指导 学习路线规划 学习资料索取 找工作 招人 技术解决方案https://www.bilibili.com/video/BV17Z4y1p7oc?from=search&seid=17271012306888891364&spm_id_from=333.337.0.0拉链表小结 - 知乎什么是拉链表记录每条信息的生命周期,一旦转载 2021-09-12 11:16:13 · 152 阅读 · 0 评论 -
数仓维度建模
浅谈数仓模型(维度建模) - 知乎背景 数据仓库的核心是展现层和提供优质的服务。ETL 及其规范、分层等所做的一切都是为了一个更清晰易用的展现层。数仓架构的原则: 1、底层业务的数据驱动为导向同时结合业务需求驱动 2、便于数据分析 屏蔽底层…https://zhuanlan.zhihu.com/p/137454121?utm_source=wechat_session&utm_medium=social&utm_oi=879350013166256128维度建模主要是4个主要决策:1转载 2021-09-14 12:45:37 · 272 阅读 · 0 评论 -
元数据管理,企业数据治理的基石
据说,英语中元数据meta一词最早出现于1968年,其是对希腊语前缀"meta-"的粗略翻译,用于表明更抽象层次的事物。尽管元数据一词只有几十年的历史,然而几千年的图书馆管理员们一直在工作中使用着元数据,只不过我们先所谓的“元数据”是历史上被称为"图书馆目录信息"。01从图书目录说起图书目录中的信息解决了一个十分关键的问题,就是如何帮助用户在图书馆快速地、准确地找到想要的资料。图书目录中依然延续至今的信息片段:书名、作者或整理、主题、简介和篇幅。但如今其含有更多的信息,如出版社、转载 2021-10-20 00:09:44 · 529 阅读 · 0 评论