
数据仓库
文章平均质量分 96
lsr40
菜鸡一个,还请见谅
展开
-
【数仓】拉链表(极限存储)
拉链表,我想做数仓的同学应该都是听过这个存储模式,拉链表的产生,源于维表存储中,如何存储和查询历史记录的问题当然本文不是来介绍概念的(如果后面我觉得有需要,我会单独整理一下),主要是看了《大数据之路:阿里巴巴大数据实践》中提到了“极限存储”的概念,然后讨论怎么具体实现!其实书中并没有说的很详细到底如何处理,我也搜了一些相关的文章,来帮助理解极限存储中月拉链表的存储和查询方法首先感谢以下几篇很棒的博文:拉链表是什么:https://www.kancloud.cn/grass1314521/d原创 2021-07-09 11:48:24 · 3444 阅读 · 0 评论 -
【数仓】数据存储格式的选择:Parquet与ORC
大家好,我终于又出现了!这次要讲讲数据存储格式的选择!平时呢,我也会加一些有的没有的交流群,主要还是日常潜水看看里面有没有大佬!然后就遇到了一个问题:hadoop上存储的数据,要进行查询,用什么格式存储更好?我下意识的反应是ORC,因为ORC的压缩比更高(文件能压缩的更小),但是转念一想,ORC和Parquet都是列式存储的格式,两者之间有什么区别呢?或者说在最开始选择数据存储格式的时候,我们需要关注哪些点呢?这另我陷入了沉思,开始在网上收集相关信息!一、orc和parquet的区别原创 2020-08-17 15:06:53 · 7021 阅读 · 4 评论 -
【数仓】数据仓库的指标库(五)
本文要来说说,数仓中的数据指标库数仓系列:【数仓】数据仓库的思考(一):https://blog.youkuaiyun.com/lsr40/article/details/105576047【数仓】数据仓库的建设(二):https://blog.youkuaiyun.com/lsr40/article/details/105639190【数仓】数据仓库的元数据管理(三):https://blog.c...原创 2020-05-02 18:03:13 · 9649 阅读 · 4 评论 -
【数仓】数据仓库的数据质量任务监控(四)
我想在本文说说数据质量,ETL任务管理和监控数仓系列:【数仓】数据仓库的思考(一):https://blog.youkuaiyun.com/lsr40/article/details/105576047【数仓】数据仓库的建设(二):https://blog.youkuaiyun.com/lsr40/article/details/105639190【数仓】数据仓库的元数据管理(三):https://...原创 2020-04-23 00:00:56 · 4389 阅读 · 0 评论 -
【数仓】数据仓库的元数据管理(三)
看了一些其他文章,有说定义的,有画图的,其中也不乏有一些很不错的文章但是其实没有一个统一的概念说明元数据管理的边界应该是什么,所以大家的做法会有所不同,有些元数据管理还会把数据质量模块也加入进来,有些可能是独立出来一个监控数据质量的模块,当然大家的目的都是想实现数仓的完整架构,只是各有各的方式和步骤~之前看过一句话,觉得很有意思:元数据管理其实就是解决,数据的哲学问题,我是谁,我...原创 2020-04-21 17:35:15 · 3636 阅读 · 2 评论 -
【数仓】数据仓库的建设(二)
前言:前文说了一些数据仓库的基础概念和模型,本文继续往下说吧!【数仓】数据仓库的思考(一):https://blog.youkuaiyun.com/lsr40/article/details/1055760471、数仓的目标(能完成什么事情)当工作中遇到以下的事情:-1.数据分层混乱,不知道从何查起-2.数据指标维度不统一,业务/数据分析部门要数据,只能找数据开发口口相传-2...原创 2020-04-20 18:59:18 · 2555 阅读 · 0 评论 -
【数仓】数据仓库的思考(一)
对于数仓的概念非常大非常广泛,而且也并没有绝对正确的架构,只是有一定的方法论,一定的前人总结留下来的理论,所以我也不知道我这个系列会更多久,会更多少,反正我就把我现在对于数仓的想法记录下来,以后如果有更深的理解,再说吧~1、什么是数据仓库这个百度也能找到答案,但是我想说的是我的观点。数仓应该是一种数据整合,数据治理,将数据做成一种服务,对外提供。什么叫数据整合,大家应该听过数据孤...原创 2020-04-17 15:06:41 · 2863 阅读 · 5 评论