AWS Glue 数据处理与转换指南
1. 引言
当数据文件存储在 S3 中后,我们可以借助 AWS Glue 开启数据处理的旅程。首先,我们要创建数据目录,之后再对数据进行转换,使其符合我们的分析需求。
2. 创建数据目录
2.1 AWS Glue 简介
AWS Glue 是一项旨在简化 ETL(提取、转换、加载)流程的服务。它通过发现数据并了解其信息,帮助我们构建数据目录。具体步骤包括定义数据分类器和爬虫,注册数据源,然后 Glue 会自动构建数据目录。之后,我们可以灵活地对数据进行映射和转换,并配置定期的 ETL 作业进行批量处理。
2.2 创建自定义分类器
如果数据文件包含嵌套结构(如 JSON 文件中的结构体和数组),我们需要创建自定义分类器,以告知 Glue 如何读取文件。对于不包含嵌套结构的文件,Glue 内置的默认 JSON 分类器就足够了。
创建自定义分类器的步骤如下:
1. 访问 Glue 控制台,点击 Crawlers 下的 Classifiers,然后点击 Add classifier 按钮。
2. 使用特定信息完成定义,例如使用 $[*] 模式,它会让 Glue 查看 JSON 模式中的所有结构体并将其转换为列。
2.3 创建数据库
在 Glue 数据目录中,数据库是一种逻辑抽象,用于组织元数据表。创建数据库的步骤如下:
1. 点击 Database,然后点击 Add database 按钮。
2. 选择数据库名称(如 weather),添加可选描述,然后点击 Create。