
数据仓库
文章平均质量分 66
红岸水滴
https://github.com/fenglei110
从孤独中寻找自由。
展开
-
聊聊OLAP
OLAP和OLTP不同的是,表中单条记录本身并不是查询所关心的,比较典型的特点包括有聚合类算子、涉及多表Join,查询所用谓语/条件没有索引。由于这些操作都非常耗计算资源,而且数据仓库相比数据库在数据量上大很多,因此OLAP类查询经常表现为cpu-bound而不是io-bound。按照建模类型将OLAP划分:1. MOLAP2. ROLAP3. HOLAP一. MOLAP这应该算最传统的数仓了,九十年代olap概念提出来时,指的就是MOLAP数仓,M即表示"多维"。大多数MO原创 2021-10-23 11:50:09 · 1018 阅读 · 1 评论 -
知识体系
总结下自己的知识体系,发现任重道远。底层的技术依然要不断巩固。原创 2021-03-14 16:39:43 · 261 阅读 · 0 评论 -
SparkSql 有关谓词下推
谓词下推最近公司做审计,任务有点重。然后发现spark sql跑出来的结果和实际情况有出入,于是经过多方打探和测试,今天做个了结。所谓谓词下推,也就是返回值是true和false的函数,做开发经常用到filter函数,这个高阶函数传入的参数就是一个返回true或false的函数。在SQL中,没有方法,只有表达式,where后边的表达式起的作用就是过滤的作用,而这部分语句被SQL引擎解析处理后,在数据库内部正式以谓词的形式呈现。SparkSQL首先会对输入的SQL语句进行一系列的分析,包括词法分析原创 2021-03-07 19:45:54 · 1832 阅读 · 4 评论 -
数仓中的缓慢变化维
数仓中经常提到缓慢变化维,那什么是缓慢变化维?大概意思就是数据会发生缓慢变化的维度叫缓慢变化维,是维度,维度,维度表。举个栗子:每个公司都会有销售人员或者是市场推广人员。在数据仓库中,事实表记录着业务人员的销售记录,维度表更新着业务人员的最新信息。假如一天,小王从北京调到上海开展业务,那么他以后的业绩肯定是算到上海区域了,但是调离前的业绩还是要算到北京的,这个变化怎么处理比较合适呢?这就涉及到缓慢变化维这个概念了。通用的几种方法:一. 新数据覆盖旧数据前提是这个变化是公司不care的,或原创 2020-07-25 23:13:00 · 1690 阅读 · 3 评论 -
数据中台之OneData体系
知其然知其所以然,公司的SaaS系统已沉淀上亿的商户,数仓也经过一年的改造,已基本成型,基于此做个总结。背景随着公司业务的发展,频繁迭代和跨部门的垂直业务单元变得越来越多。但由于缺乏前期规划,导致后期数仓出现了严重的数据质量问题,这给数据治理工作带来了很大的挑战。在数据仓库建设过程中,总结的问题包括如下几点:缺乏统一的业务和技术标准,如:开发规范、指标口径和交付标准不统一。 缺乏有效...翻译 2019-10-19 20:28:11 · 12680 阅读 · 4 评论 -
数仓模型构建流程
数据仓库的发展大致经历了这样的三个过程:1. 简单报表阶段:这个阶段,系统的主要目标是解决一些日常的工作中业务人员需要的报表,以及生成一些简单的能够帮助领导进行决策所 需要的汇总数据。大部分表现形式为数据库和前端报表工具。3. 数据集市阶段:这个阶段,主要是根据某个业务部门的需要,进行一定的数据的采集,整理,按照业务人员的需要,进行多维报表的展现, 能够提供对特定业务指导的数据,并...原创 2019-08-10 19:18:19 · 23189 阅读 · 6 评论 -
数据仓库
做数仓做久了,真感觉越来越向数据产品经理的方向发展了。数据产品经理是近年来随着大数据的发展蹦出来的一个岗位,很多人搞不懂数据分析师、数据产品经理、数据仓库开发工程师、ETL工程师到底是什么岗位?下周吧,总结一篇。这周先写写数仓的东西,感觉自己真应该总结下过往经验输出一下了。一、什么是数据仓库?数据仓库是为了方便企业快速做各种业务决策提供数据支撑而构建的集成化数据环境。有一句话很好的体现了数...原创 2019-07-28 15:26:51 · 914 阅读 · 0 评论 -
聊聊DW/BI
随着公司业务的不断发展,公司会积累大量各种类型的数据。这些海量的数据如果没有得到有效的分析和利用,那么不会对业务产生该有的价值。构建一个大数据分析平台,结合多个业务系统,从中抽取海量数据进行管理、整合、分析和利用,从中发现潜在问题和有价值的规律,并通过可视化的方式进行展现,能够为管理层提供科学决策的支持,提升企业的业务能力和效益,确保数据驱动业务增长。 那么数据...原创 2019-08-04 23:19:49 · 3041 阅读 · 0 评论 -
数仓构建流程
首先理解以下基本概念:1. 业务板块:比数据域更高维度的业务划分方法,适用于特别庞大的业务系统。2. 维度:维度建模由Ralph Kimball提出。维度模型主张从分析决策的需求出发构建模型,为分析需求服务。维度是度量的环境,是我们观察业务的角度,用来反映业务的一类属性 。属性的集合构成维度 ,也可以称为实体对象。例如, 在分析交易过程时,可以通过买家、卖家、商品和时间等维度描述交易发生的...原创 2019-08-10 19:16:24 · 11104 阅读 · 1 评论