基于AWS Serverless的Glue服务进行ETL(提取、转换和加载)数据分析（一）——创建Glue

「已注销」

已于 2022-08-29 20:06:57 修改

阅读量893

点赞数

分类专栏： AWS云文章标签：数据分析 etl python serverless 大数据

于 2022-08-23 21:43:15 首次发布

本文链接：https://blog.youkuaiyun.com/Inplayable/article/details/126492674

版权

本文介绍了如何使用AWS Glue进行ETL操作，从通过Athena查询s3数据开始，详细讲解了创建Glue数据库、设置爬网程序、手动与自动创建表的过程，并阐述了Athena在查询中的作用。最后总结了实验中的关键步骤，为后续的数据转换和无服务架构查询奠定基础。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 通过Athena查询s3中的数据

此实验使用s3作为数据源

ETL:

E    extract         输入
T    transform     转换
L    load             输出

在这里插入图片描述

首先我们需要创建一个数据库。我们将会使用爬网程序来填充我们的数据目录。

在任务中，我们经常会使用Glue爬网程序来填充我们的数据目录。
爬虫可以在一次运行中爬取多个数据存储。在爬取完成后，我们会在数据目录中看到由爬虫创建的一个或多个表。
创建表后，我们就可以在接下来的Athena查询或ETL作业中使用表来作为源或目标了。

步骤	图例
1、入口