AWS 大数据实战 - 环境准备(一)

最新推荐文章于 2025-03-21 10:16:18 发布

原创

最新推荐文章于 2025-03-21 10:16:18 发布 · 1.2k 阅读

CC 4.0 BY-SA版权

文章标签：

本文详细介绍如何利用AWS的Kinesis、EMR、Quicksight和Elasticsearch等服务进行实时流处理、批处理分析、数据可视化及检索，通过实例搭建和清理来掌握完整的大数据处理流程。

实验介绍

本次实战内容将教大家如何使用 AWS 的大数据和数据湖的相关服务和组件，顺利完成大数据的收集，存储，处理，分析和可视化的完整的流程，主要会介绍以下几个 AWS 大数据服务：

为了更好的模拟实际的业务需求，我们构建了一个数据库(模拟历史数据，或者部分客户已经存在的ODS库)，我们构建了实时数据流(模拟例如电商，web等的点击流)，我们构建了流式实时分析和批量分析的平台以及对应的可视化展现和数据实时检索的平台。如下是此次实验的整体的架构图：

为了让大家对数据结构有个更清晰的认识，我们把RDS(关系型数据库)里面的数据表结构做了一层抽象，供参考：

为了顺利完成全部的动手实验，需要做如下准备工作，所有的资源创建在了 AWS us-east-1 这个区域：

步骤	准备环境	准备内容描述
01	账号配置	熟悉AWS提供的账号和登录方式，并配置对应安全选项
02	部署EC2	部署一个EC2(Linux)用于操作的客户端并学会远程登录
03	配置KDS	配置 Kinesis Data Streams 实时数据流用于产生数据
04	部署RDS	配置数据库(在实验环境中，理解为历史数据或者ODS环境)
05	部署EMR	部署大数据平台 EMR
06	部署ES	部署实时分析平台 Elasticsearch