AWS 大数据实战 Lab2 - 批量数据处理(三)

最新推荐文章于 2025-10-12 23:12:15 发布

原创

最新推荐文章于 2025-10-12 23:12:15 发布 · 772 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #大数据 #python #java #hadoop

本教程介绍了如何利用Amazon EMR with Spark和AWS Glue构建批量数据分析流程。涉及步骤包括：通过Glue Crawler获取RDS和Kinesis数据的元数据，使用Glue ETL加载数据到S3，使用EMR Spark进行批处理，并将结果存储回S3。此外，还展示了如何设置RDS连接，创建ETL作业，以及在EMR上运行Spark任务进行数据分析。

在本练习中，您将学习如何使用 Amazon EMR(Spark)和 AWS Glue(ETL)构建批量数据分析处理程序。为了使本实验的练习更加贴近实际的业务场景，我们模拟了完整的从数据产生(模拟历史数据和流数据)、数据存储、数据处理、到数据分析和数据可视化的完整过程(数据可视化在 Lab3/Lab4 中完成)。

具体可参考如下架构图：

组件说明如下：

• RDS 作为 Lab2 次实验的历史数据源，RMDBS 格式，包含人员信息表 tbl_customer、产品信息表 tbl_product、地址信息表 tbl_address、交易历史流水表 tbl_transaction，等 4 张表，参与批处理计算；

• Lab1 实验中 Kinesis 的输出(存放在 Lab1 指定的 S3 文件夹中，Json 格式)，为近实时当日交易流水，也可以作为 Lab2 批处理的输入，参与批处理计算(注意：学员可以考虑使用 Lab1 的输出数据或者使用我们提前准备好的数据)；

• S3 桶作为数据湖的存储基础，包含 input 文件夹(用于 EMR Spark 批处理的输入)，存放通过 Glue ETL 加载进来的 RDS 历史数据源和 Kinesis 当日近实时数据，以 Parquet 格式存放。output 文件夹，存放 EMR Spark 批处理的结果数据(Parquet 格式)；

详细的数据流步骤说明如下：