前言
写该篇文章有2个目的:
1、 输出倒逼输入,对工作学习做一个总结、查漏补缺
2、 帮助刚入行的同学建立对数仓的初步认识
一、 数仓是啥
要解释这个问题,首先先思考下"仓库"的含义。我们能够想到,仓库一般有一下几个特点:
1、 接受货物;
2、 存放货物;
3、 分发货物;
4、 。。。;

数仓的功能非常类似,核心也就是下面的功能:
1、 采集数据;
2、 存储数据;
3、 分发数据;
4、 。。。
地方
这样一看,数仓其实跟实体仓库从本质上看没啥区别,不同点在于:
1、 仓库存储有形物品,无法复制;
2、 数仓存储数据,而数据是可以被复制的;
3、 仓库看得见、摸得着,而数仓你是看不到数据在硬盘中如何存储的,但是你能通过数据模型从逻辑上感受。
其实,它们之间还有很多类似,比如说在仓库会划分不同区域,按照货物种类统一存储,(超市也一个道理),
数据同样也会分类存储,同时仓库的货物流(入-存-发)与数仓的数据流也基本是一个意思,只不过某个货物运走了就没了,而数据是永远存在的。
这里只是借助这个例子,让大家能够将过往的生活经验代入进来,更快的理解什么是数仓,毕竟思想永远是相通的。
二、 为啥要数仓
有很多理由说服我们搭建数仓,但核心就一个:取数成本太高。
先解释一下:
取数:说明公司已经认识到数据中的价值

最低0.47元/天 解锁文章
3477

被折叠的 条评论
为什么被折叠?



