117.精读《Tableau 探索式模型》

本文深入解析Tableau的探索式模型,从理解数据的维度、度量、连续与离散,到配置的行、列、标记和筛选,再到图表的下钻、层系、轴交互。通过实例分析,揭示Tableau如何通过灵活配置和丰富的图表交互实现高效的数据分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 引言

Tableau 探索式分析功能非常强大,各种功能组合似乎有着无限的可能性。

今天笔者会分析这种探索式模型解题思路,一起看看这种探索式分析功能是如何做到的。

2. 精读

要掌握探索式分析,先要掌握探索式分析背后的思维模型。

理解数据

有分析意义的数据一般是表结构,即分为行与列,列定义了数据含义,行则构成了数据明细。

当我们将数据作为 “原材料” 使用时,需要将这些明细数据封装为 “数据集” 的概念来理解,数据集概念中,数据就是一个个字段,对于字段,要理解 “维度” 与 “度量” 这两个概念。

维度

维度是不能被计数的字段,一般为字符串或离散的值,用来描述数据的维度。

度量

度量是可以被计数的字段,一般为数字、日期等连续的值,用来描述数据的量。

我们首先要将数据集字段归类到维度与度量,才能提高数据分析的效率。数据分析就是从不同维度下看度量值,先想清楚要看的是什么数据,比如销量还是利润?这些字段都属于度量,然后想一想要怎么看这些度量,是看总数、拆解到年看、还是按地区看呢?这些字段都属于维度。

维度和度量是可以单独看的,如果单看维度,那只能看这个维度的明细,比如看 订单日期 这个字段:

需要注意的时,维度与度量字段还可以分为 连续 与 离散 。

连续 

值是连续关系,即任意两个值之间可以计算差值。

离散 

值是离散关系,即任意两个值之间无法计算差值,无法以连续的方式去理解。

**一般来说,维度字段都是离散的,度量字段都是连续的。**从字段类型意义上也能得出相同的结论:维度字段一般为字符串或日期类型,字符串类型都是离散的,度量字段一般为数字类型,数字天生就可以连续。

值得注意的是,连续与离散其实与字段类型、维度度量并无关系,比如维度的日期字段就是可连续的,而就算是字符串类型,也可以以字符串长度等方式 “定义” 一种连续的计算方式。对数字类型的度量字段来说,我们也可以忽略数字之间的联系,将数字看待为字符串,这样数字之间就是离散的。

上图的 “离散方式看日期” 就是看维度的直观方式,但仍可以用 “连续方式看日期”:

离散方式下单看维度只有一条条数据,数据间并无排序规则,而以连续方式看维度,维度就会以某种方式排序:比如上图以时间类型进行排序。此时展示方式也从表格切换为了柱状图,因为表格适合展示离散数据,柱状图的一根柱子就可以展示连续数据。

单看度量时,由于 度量要依附于维度展示,因此仅有度量时,只能看这个度量的 聚合 概念:

如上图所示,单看销量这个度量字段时,我们只能将数据集中所有销量字段聚合在一起来看,但这种聚合方式也可以分成若干种计算类型 - 求和、平均值、中位数、计数、计数去重、最小值、最大值、方差等等:

这些能力之间都是 “正交” 的,即单看度量这一个字段,可以以这么多种类型进行计算,那么按维度拆分后,度量依然可以享受如上不同的计算方式。

也可以用连续方式看度量:

与连续-维度不同,连续-度量图形中除了最后一个值,其他过渡数值都是无效的,因为连续-度量只有一个值。连续-维度也要注意,由于以连续的方式画出图形,中间不存在的点也被 “无缝连接” 了。

数据之间也可以存在父子级关系,有父子级关系就可以进行上卷下钻了,这种父子级关系被称为 “层系字段”:

上图的 Orders 就是一个层系字段。层系字段是几个字段的排序组合,由上到下依次构成下钻关系,从下到上则是上卷的关系。

层系

**只有维度字段才能有层系,**因为度量是不能被拆分的,只有维度才可以被拆分。

维度的拆分可以是有逻辑含义的,也可以是任意的。

有逻辑含义的层系 

最典型有逻辑含义的层系字段就是时间了。一个好的 BI 系统识别到日期字段后,应该将拿到的日期字段进行归类,比如判断日期字段粒度到天,则自动生成一个日期层系字段,自动聚合到年,并允许用户随意切换:

如果数据集字段值精确到月,则层系只能最多展开到月。

日期层系的逻辑含义在于,年、季度、月、天这种下钻关系是天然从大到小的关系,符合自然理解。

任意层系 

如果层系字段不代表日期,就只能以业务含义组合层系字段了。比如可以将层系按照 订单日期 -> 商品 ID -> 运货日期的方式组合:

这种下钻方式,可以看到每个订单日期下有哪些商品,每个商品分别运货日期是什么。

也可以按照商品 ID 拆分出不同的订单日期与运货日期,这种层系组合方式就是以商品 ID 为主要视角:

可以看到,不同思维角度会按照不同的方式组合层系。比如一家大公司要查看财务问题,维度有:BU、日期,度量有:销量。

那么有两种下钻方式:BU -> 日期、日期 -> BU。无论哪种下钻方式,都能看到每个 BU 按日期销量的明细,但 BU -> 日期 能看到每个 BU 按日期聚合的总销量,而 日期 -> BU 能看到不同日期按 BU 聚合的总销量,前者更易对比出 BU 之间差异,后者更易对比出日期之间的差异。

理解配置

配置是探索式分析的入口,要理解分析模型首先得理解配置模型。

Table 主要配置分为行、列、标记与筛选。通过这四个配置区域可以组合成千变万化的数据洞察模型。既然如此,让我们看看这种配置思路是什么,以及为何这四种配置相互组合就能覆盖整个探索式分析场景?

我们不需要考虑三维数据分析场景,因为三维透视的关系,图形丢失了精确大小关系,没有精度的数据是没有分析价值的。由于在二位平面中分析数据,大部分图表都可以用 “行、列” 方式进行配置。

也许有人会问,为什么不用维度与度量替代行列呢?这是一个很好的问题,有数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值