利用 Azure Databricks 进行 ETL 操作及 Delta Lake 应用实践
1. 利用 Azure Databricks 执行 ETL 操作
1.1 数据转换与查询
借助 PySpark 应用程序编程接口(API),我们能够执行多种数据转换操作,如选择行和列、按名称或编号访问单元格中的值、过滤等。我们可以将这些转换操作与 SQL 语句结合使用,对文件中的数据进行转换和持久化。
1.1.1 创建视图
我们可以使用 Spark 数据框中的数据创建视图,以便使用 SQL 进行查询。具体步骤如下:
1. 创建名为 voter_turnout 的视图,使用以下命令:
df.createOrReplaceTempView("voter_turnout")
- 使用
SELECT命令获取刚刚创建的视图中的所有记录。 - 选择所有数据,然后使用
WHERE子句过滤出亚利桑那州的所有结果。
创建数据的临时视图在进行实验或测试时非常有用,但在集群重启后,视图将会丢失。为了持久化数据,我们可以创建永久表。
1.2 在数据湖中创建表
永久表可以让我们拥有持久化的数据,多个用户可以对其进行查询,并且在需要频繁访问数据时非常有帮助。创建表的步骤如下:
1. 创建一个包含表的数据库,名为 voting_data <
超级会员免费看
订阅专栏 解锁全文

1969

被折叠的 条评论
为什么被折叠?



