数据准备与分析平台的构建及未来趋势
1. 数据准备工具概述
在进行数据分析之前,数据清理是至关重要的一步。以下介绍几种常见的数据准备工具及其特点。
1.1 Excel
Excel 中的公式可用于在分析前清理数据,对于 Tableau Desktop 未涵盖的特定金融功能特别有用,若用 Python 或 R 构建可能需要多行代码。此外,还能将多个来源的数据复制粘贴到一个电子表格中,在无法以其他方式合并数据时,这是一个明显的解决方案。在进行静态分析构建子集表,或无需回顾数据清理方式时,Excel 也是不错的选择。而且大多数人熟悉 Excel,搜索相关任务的解决方案或教程相对容易。
不过,Excel 也存在局限性。它目前无法处理大规模数据集(超过一百万条记录),并且容易导致修改源数据的不良行为。此外,在 Excel 中难以通过编程方式重复数据清理任务,因此难以将清理后的数据集通过 Excel 部署给大量用户。
1.2 SQL
SQL(Structured Query Language)是最流行的编程语言和查询语言,常用于组合和查询关系型数据库中的数据。Tableau 基于 SQL 构建,它将用户的拖放交互(Tableau 称为 VizQL)转换为对数据源的 SQL 查询。
SQL 技能熟练的从业者能够创建数据集,将聚合和数据清理操作推回到数据源。在许多大型企业中,SQL 仍是创建数据集(通常称为报表表)的主要工具。从与 Tableau 协作的角度来看,SQL 可以将许多复杂的计算字段或纯粹的清理任务抽象到“后端”,使分析师能够专注于在数据集之上进行分析。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



