6、利用 Azure Databricks 进行 ETL 操作及 Delta Lake 应用实践

利用 Azure Databricks 进行 ETL 操作及 Delta Lake 应用实践

1. 利用 Azure Databricks 执行 ETL 操作

1.1 数据转换与查询

借助 PySpark 应用程序编程接口(API),我们能够执行多种数据转换操作,如选择行和列、按名称或编号访问单元格中的值、过滤等。我们可以将这些转换操作与 SQL 语句结合使用,对文件中的数据进行转换和持久化。

1.1.1 创建视图

我们可以使用 Spark 数据框中的数据创建视图,以便使用 SQL 进行查询。具体步骤如下:
1. 创建名为 voter_turnout 的视图,使用以下命令:

df.createOrReplaceTempView("voter_turnout")
  1. 使用 SELECT 命令获取刚刚创建的视图中的所有记录。
  2. 选择所有数据,然后使用 WHERE 子句过滤出亚利桑那州的所有结果。

创建数据的临时视图在进行实验或测试时非常有用,但在集群重启后,视图将会丢失。为了持久化数据,我们可以创建永久表。

1.2 在数据湖中创建表

永久表可以让我们拥有持久化的数据,多个用户可以对其进行查询,并且在需要频繁访问数据时非常有帮助。创建表的步骤如下:
1. 创建一个包含表的数据库,名为 voting_data <

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值