数据模型无法复用?归根到底谁来“背锅”?

本文探讨了数据模型复用性差的问题,指出其主要源于设计问题。通过分析数据平台任务和查询统计,揭示了模型完善度、复用度和规范度的重要性。提出了衡量模型的三个指标:完善度、复用度和规范度,并提供了具体的量化方法。此外,文章还介绍了如何通过接管ODS层、划分主题域、构建一致性维度和事实表整合等步骤实现数据共享,以构建高效的数据中台。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要:通过本文的学习你将收货一些实实在在的干货,尤其对于数仓的小伙伴而言,我相信会有一些新的的认识。本文主要内容包括:

    

    1、什么才是好的数据模型

    2、如何衡量模型的完善度、复用度、规范度

    3、如何实现数据共享

引言

上篇文章咱们一起讨论了如何管理指标从快手的指标规范出发聊一聊如何管理杂乱的数据指标,如果把指标比喻成一棵树上的果实,那me模型就是这棵大树的躯干,想让果实结的好,必须让树干变得粗壮。

首先来举个栗子(这可是真实场景奥):

大多数公司的分析师会结合业务做一些数据分析,通过报表的方式服务于业务部门的运营。但在公司数据建设初期,分析师经常发现自己没有可以复用的数据,不得不每次使用原始数据进行加工、计算指标。

由于很多分析师并不是技术出身,所以SQL写起来比较随性,导致资源消耗较大,然后引起一系列不必要的麻烦...

这些问题根源还是在于数据模型无法复用数据开发是烟囱式的,每次遇到新的需求,都要从原始数据进行清洗、计算。要解决这个问题,我们要思考的就是数据模型应该设计成什么样子。引出:数据模型无法复用,归根到底还是设计的问题。那么,如何设计好的模型呢,咱们慢慢聊。

数据模型设计之好坏

下面咱们来看一组数据,这两个表格是基于元数据提供的血缘信息,分别对大数据平台上运行的任务和分析查询(Ad-hoc)进行的统计。

下面是数仓分层架构图,方便咱回忆数据分层的设计架构:

首先来看图1。图1 中有2547 张未识别分层的表,占总表 6049 的 40%,它们基本没办法复用。重点是在已识别分层的读表任务中,ODS:DWD:DWS:ADS 的读取任务分别是 1072:545:187:433,直接读取 ODS 层任务占这四层任务总和的 47.9%,这说明有大量任务都是基于原

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值