24、数据准备工具:Tableau Desktop 与 Tableau Prep Builder 对比及使用指南

数据准备工具:Tableau Desktop 与 Tableau Prep Builder 对比及使用指南

1. 引言

在数据处理和分析领域,选择合适的数据准备工具至关重要。Tableau Desktop 和 Tableau Prep Builder 是两款常用的数据准备工具,它们各自具有独特的优势和适用场景。了解何时使用这两款工具,能够显著提高数据处理的效率和质量。

2. 数据准备工具的发展背景

早期,所有的数据准备工作都在 Tableau 的数据连接窗口中完成,随着数据复杂度的增加,该窗口的空间变得有限,复杂的操作也会迅速使 Tableau 简洁的用户界面变得杂乱。为了解决这个问题,2018 年 Tableau 推出了独立的数据准备工具 Tableau Prep Builder。

3. 何时优先使用 Tableau Desktop

3.1 简单连接(Joins)

  • 优势 :连接功能在 Tableau Desktop 的数据连接中已经存在多年。在 Desktop 中进行连接操作,你可以随时更改连接类型和条件。加入连接计算后,你可以在 Desktop 中处理大多数需要从其他数据源添加列的情况。
  • 适用场景 :如果你对数据不熟悉,或者不确定连接结果,建议使用 Tableau Prep Builder。而当你对数据有一定了解,且连接操作较为简单时,可优先在 Desktop 中进行。
  • 操作步骤 :在 Tableau Desktop 中设置连接,可参考以下步骤:
    1. 打开 Tableau Desktop,进入数据连接窗口。
    2. 选择需要连接的数据源。
    3. 根据需求设置连接类型和条件。
    4. 进行连接计算(如有需要)。

3.2 联合(Unions)

  • 优势 :当联合功能被添加到 Tableau Desktop 的数据连接窗口后,大大减少了外部数据准备的次数。Desktop 中的联合操作非常灵活,与 Tableau Prep 中的联合选项非常相似。在 Desktop 中,你可以直接在数据连接窗口中将额外的数据集拖到原始连接下方,形成基本联合。
  • 适用场景 :如果你想立即探索联合数据的效果,并且不需要进行其他数据准备步骤,那么从 Desktop 开始是个不错的选择。
  • 操作步骤 :在 Tableau Desktop 中添加基本联合,步骤如下:
    1. 打开 Tableau Desktop,进入数据连接窗口。
    2. 找到原始连接和额外的数据集。
    3. 将额外的数据集拖到原始连接下方。
    4. 联合形成后,你可以选择编辑联合或添加其他数据源。

3.3 单轴旋转(Single Pivots)

  • 优势 :当轴旋转功能被添加到 Desktop 后,大大减少了对外部工具(如 Tableau 的 Excel 插件)的需求。在 Desktop 中对列或一组列进行轴旋转操作,使数据集的准备和整理变得更加简单。
  • 适用场景 :如果你的数据只需要进行简单的单轴旋转,并且不需要进行多次轴旋转、同时进行拆分和轴旋转或在轴旋转中使用计算字段,那么可以在 Desktop 中完成。
  • 操作步骤 :在 Tableau Desktop 中进行单轴旋转,步骤如下:
    1. 打开 Tableau Desktop,加载需要处理的数据集。
    2. 选择需要进行轴旋转的列。
    3. 执行轴旋转操作。
    4. 调整生成的数据字段名称(如有需要)。

4. 何时将操作转移到 Tableau Prep Builder

4.1 简单连接(Joins)

  • 适用场景 :当你进行多次连接或使用多个连接条件时,在 Desktop 中很难清晰地查看输出结果。而 Tableau Prep 的分析面板(Profile pane)可以让你更容易发现连接条件是否出错,或者是否产生了大量意外的空值。此外,当你需要在连接另一个数据集之前更改其中一个数据集的聚合级别时,也应使用 Tableau Prep。

4.2 联合(Unions)

  • 适用场景 :当你联合具有不同结构(列名)的数据时,生成的数据集会包含大量空值。在进行分析之前处理这些空值可能很复杂,需要精确的计算。Tableau Prep Builder 的分析面板可以让你更容易看到这些空值以及处理后的变化,从而确保操作正确进行。

4.3 单轴旋转(Single Pivots)

  • 适用场景 :Desktop 中轴旋转的局限性在于只能进行一次轴旋转,并且不能同时进行拆分和轴旋转,也不能在轴旋转中使用计算字段。许多数据集,尤其是复杂的调查数据,往往需要多次轴旋转。因此,在规划数据准备时,如果你预计需要进行多次轴旋转,应直接使用 Tableau Prep Builder。

5. Tableau Prep Builder 的优势

5.1 可追溯性和文档化

Tableau Prep Builder 具有很强的可追溯性,在构建数据准备流程时,它基本上是自我文档化的。使用图标、更改面板(Changes pane)以及逐步骤查看更改的功能,任何人都可以追溯从输入到输出的整个过程,理解每个阶段存在的原因。你还可以使用逻辑名称重命名步骤并添加描述,这使得工作比使用 Desktop 时更容易理解,避免了冗长的项目交接文档。

5.2 数据审查和交接

在数据审查或交接的情况下,你应该直接使用 Tableau Prep。它的文档化功能可以让你在进行数据准备的同时完成文档记录,节省了额外编写交接文档的时间。

6. 总结

虽然 Tableau Desktop 可以单独完成上述各项操作,但将这些操作组合起来会增加复杂度,使 Desktop 的用户界面变得拥挤,这也是推出 Tableau Prep 的原因之一。此外,在 Desktop 中交接具有多个数据准备阶段的复杂工作簿对接收者来说并不理想,而 Tableau Prep Builder 能够简洁清晰地记录你的数据准备流程,这是它除了前面章节提到的更复杂功能之外的又一个优势。

下面是一个简单的 mermaid 流程图,展示了在不同操作场景下选择 Tableau Desktop 还是 Tableau Prep Builder 的决策过程:

graph LR
    A[数据准备操作] --> B{操作类型}
    B -->|简单连接| C{是否多次连接或多条件}
    C -->|否| D[Tableau Desktop]
    C -->|是| E[Tableau Prep Builder]
    B -->|联合| F{数据结构是否不同}
    F -->|否| D
    F -->|是| E
    B -->|单轴旋转| G{是否需要多次轴旋转}
    G -->|否| D
    G -->|是| E

同时,为了更清晰地对比 Tableau Desktop 和 Tableau Prep Builder 在不同操作上的适用场景,我们可以看下面的表格:
| 操作类型 | Tableau Desktop 适用场景 | Tableau Prep Builder 适用场景 |
| ---- | ---- | ---- |
| 简单连接 | 对数据熟悉,连接操作简单,可随时更改连接类型和条件 | 多次连接或使用多个连接条件,需要更改聚合级别,对数据不熟悉或不确定连接结果 |
| 联合 | 立即探索联合数据效果,无需其他数据准备步骤 | 联合不同结构数据,处理空值复杂 |
| 单轴旋转 | 只需进行简单单轴旋转,无需多次轴旋转、拆分和轴旋转或使用计算字段 | 需要多次轴旋转 |

通过以上内容,你可以根据具体的数据处理需求,合理选择 Tableau Desktop 或 Tableau Prep Builder,提高数据准备的效率和质量。

7. 数据准备的其他关键操作及工具选择

7.1 聚合操作

  • 操作说明 :聚合是数据处理中的常见操作,可通过添加聚合步骤来实现。在 Tableau Prep Builder 中,它能对数值进行聚合,例如对数字进行求和、求平均值等操作。同时,还可以通过聚合来进行去重处理。
  • 工具选择 :在比较 Tableau Prep Builder 和 Tableau Desktop 的聚合计算时,两者存在一些差异。当需要进行更复杂的聚合计算,或者需要对聚合结果进行进一步分析时,Tableau Prep Builder 可能更合适;而如果只是进行简单的聚合操作,Tableau Desktop 也能满足需求。
  • 操作步骤 :在 Tableau Prep Builder 中添加聚合步骤如下:
    1. 打开 Tableau Prep Builder,加载需要处理的数据集。
    2. 在数据准备流程中找到合适的位置添加聚合步骤。
    3. 选择需要聚合的字段和聚合方式(如求和、平均值等)。
    4. 确认聚合设置并应用。

7.2 分析计算

  • 操作说明 :分析计算包括分析性计算和表计算。分析性计算能带来诸多好处,例如帮助我们更深入地理解数据。表计算则是在表的基础上进行的计算,有多种应用场景,如过滤掉一定比例的数据等。
  • 工具选择 :在 Tableau Prep Builder 中可以应用表计算逻辑,而 Tableau Desktop 在某些简单的分析计算上也有其优势。如果需要进行复杂的表计算逻辑,或者需要对计算过程进行详细的追溯和文档化,Tableau Prep Builder 是更好的选择。
  • 操作步骤 :在 Tableau Prep Builder 中应用表计算逻辑如下:
    1. 打开 Tableau Prep Builder,加载数据集。
    2. 进入计算编辑界面,选择表计算选项。
    3. 根据需求设置表计算的关键字和函数(如 ROW_NUMBER() 等)。
    4. 应用表计算并查看结果。

7.3 数据清理

  • 操作说明 :数据清理是数据准备的重要环节,包括处理空值、去除重复数据、处理不需要的字符等。例如,使用 Clean 步骤可以对数据进行初步的清理。
  • 工具选择 :Tableau Prep Builder 在数据清理方面具有更强大的功能和更好的可追溯性。它的分析面板可以帮助我们更直观地发现数据中的问题,并且可以对清理步骤进行详细的记录。而 Tableau Desktop 在简单的数据清理操作上也能完成一些工作。
  • 操作步骤 :以处理空值为例,在 Tableau Prep Builder 中操作如下:
    1. 打开 Tableau Prep Builder,加载数据集。
    2. 找到需要处理空值的字段。
    3. 使用 IsNull() 函数判断空值,然后选择去除或替换空值的方式(如使用 ZN() 函数)。
    4. 应用处理操作并检查结果。

8. 数据准备的规划与注意事项

8.1 规划的重要性

规划数据准备过程是非常重要的。它可以让你定期检查自己的目标是否合理,并且有机会添加有益的数据。在获得一定经验后,也不应跳过规划步骤。规划包括了解你的数据(Know Your Data,KYD)、确定期望的数据状态以及规划所需的转换步骤。
- 了解你的数据 :需要评估数据集中的维度、度量、数据类型等信息,以便为后续的处理做好准备。
- 确定期望的数据状态 :明确最终需要的数据形状和结构,例如是否需要进行聚合、连接、轴旋转等操作。
- 规划所需的转换步骤 :根据前两步的结果,规划具体的数据转换步骤,如先进行数据清理,再进行连接操作等。

8.2 注意事项

  • 数据安全 :在处理数据时,要注意数据的敏感性和安全性。对于包含机密信息的数据,要采取适当的保护措施,如匿名化处理等。
  • 性能考虑 :避免创建过多不必要的列和行,以减少系统负载和提高处理性能。在进行数据存储时,也要注意避免数据覆盖和性能问题。
  • 文档记录 :无论是使用 Tableau Desktop 还是 Tableau Prep Builder,都要做好数据准备过程的文档记录。在 Tableau Prep Builder 中,这一点更加容易实现,因为它具有自我文档化的功能。

9. 输出与自动化

9.1 输出选择

在完成数据准备后,需要选择合适的输出方式。可以选择将数据发布到数据库、文件(如 Hyper 文件)、多个站点或 Tableau Server。
- 发布到数据库 :需要考虑数据库的连接设置、数据覆盖风险等问题。
- 发布到文件 :如 Hyper 文件,是一种方便的数据存储方式。
- 发布到多个站点或 Tableau Server :可以实现数据的共享和分发。

9.2 自动化

Tableau Prep Conductor 可以帮助实现数据准备流程的自动化。它具有以下优势:
- 可追溯性 :可以清晰地记录数据准备的整个过程,方便后续的审查和维护。
- 自动化执行 :可以按照预定的计划自动执行数据准备流程,提高工作效率。
- 易于使用 :通过直观的界面和操作步骤,即使是非技术人员也能轻松上手。

操作步骤如下:
1. 下载并获取 Tableau Prep Conductor 的许可证。
2. 打开 Tableau Prep Conductor,进入 Connections 选项卡,设置数据源连接。
3. 加载需要自动化执行的数据准备流程到 Tableau Prep Conductor。
4. 在 Lineage 选项卡中查看数据准备流程的详细信息。
5. 设置自动化执行的计划和参数。
6. 启动自动化执行任务。

10. 展望

随着 Tableau Prep Builder 的不断更新,开发团队会不断添加更丰富的功能。目前,它已经是一款易于使用的数据准备工具,能够去除数据准备过程中不必要的复杂性。未来,我们可以期待它带来更多的惊喜,进一步提高数据准备的效率和质量。同时,开发者们的辛勤工作为我们提供了强大的工具,让我们能够更好地处理和分析数据,实现数据自由和赋能。

下面是一个 mermaid 流程图,展示了数据准备的整体流程:

graph LR
    A[了解数据] --> B[规划数据准备]
    B --> C[选择工具(Desktop 或 Prep Builder)]
    C --> D[进行数据准备操作(连接、联合、旋转等)]
    D --> E[数据清理]
    E --> F[输出选择(数据库、文件等)]
    F --> G{是否需要自动化}
    G -->|是| H[使用 Tableau Prep Conductor 自动化]
    G -->|否| I[完成数据准备]

同时,为了更清晰地展示不同数据操作在不同工具中的特点,我们可以看下面的表格:
| 数据操作 | Tableau Desktop 特点 | Tableau Prep Builder 特点 |
| ---- | ---- | ---- |
| 聚合操作 | 简单聚合操作方便 | 复杂聚合计算和可追溯性强 |
| 分析计算 | 简单分析计算可用 | 复杂表计算和文档化功能好 |
| 数据清理 | 简单清理可完成 | 强大清理功能和可视化分析 |
| 输出 | 基本输出功能 | 丰富输出选项和自动化支持 |

通过以上对 Tableau Desktop 和 Tableau Prep Builder 的详细介绍,以及数据准备过程中的各项操作和注意事项,希望能帮助你更好地选择和使用合适的工具,提高数据准备的效率和质量,从而在数据处理和分析领域取得更好的成果。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值