21、AWS Glue 数据处理与转换指南

AWS Glue 数据处理与转换指南

1. 引言

当数据文件存储在 S3 中后,我们可以借助 AWS Glue 开启数据处理的旅程。首先,我们要创建数据目录,之后再对数据进行转换,使其符合我们的分析需求。

2. 创建数据目录
2.1 AWS Glue 简介

AWS Glue 是一项旨在简化 ETL(提取、转换、加载)流程的服务。它通过发现数据并了解其信息,帮助我们构建数据目录。具体步骤包括定义数据分类器和爬虫,注册数据源,然后 Glue 会自动构建数据目录。之后,我们可以灵活地对数据进行映射和转换,并配置定期的 ETL 作业进行批量处理。

2.2 创建自定义分类器

如果数据文件包含嵌套结构(如 JSON 文件中的结构体和数组),我们需要创建自定义分类器,以告知 Glue 如何读取文件。对于不包含嵌套结构的文件,Glue 内置的默认 JSON 分类器就足够了。
创建自定义分类器的步骤如下:
1. 访问 Glue 控制台,点击 Crawlers 下的 Classifiers,然后点击 Add classifier 按钮。
2. 使用特定信息完成定义,例如使用 $[*] 模式,它会让 Glue 查看 JSON 模式中的所有结构体并将其转换为列。

2.3 创建数据库

在 Glue 数据目录中,数据库是一种逻辑抽象,用于组织元数据表。创建数据库的步骤如下:
1. 点击 Database,然后点击 Add database 按钮。
2. 选择数据库名称(如 weather),添加可选描述,然后点击 Create。

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值