AWS数据处理与Kinesis服务详解
1. 数据湖与相关服务概述
在当今的数字化时代,企业的数据往往分散在各个地方,包括云端和本地。这种数据的碎片化给数据分析、可视化和关联带来了很大的挑战。数据湖的出现为解决这一问题提供了有效的方案。
数据湖是一个集中式的数据库,它可以收集和存储来自任意数量地方的大量结构化和非结构化数据。与传统的数据仓库不同,数据湖可以原样存储所有数据,无需进行结构化、清理或去重处理。用户可以在需要时对数据进行搜索、分析、可视化和关联操作。
1.1 AWS Lake Formation
AWS Lake Formation 允许用户基于所有数据创建数据湖,无论这些数据是存储在 AWS 上还是本地。它借助 AWS Glue 服务来执行提取、转换和加载(ETL)操作。AWS Glue 基于 Apache Spark 大数据框架,除了执行 ETL 操作外,还可用于查询大规模数据集。
1.2 数据摄取(Ingestion)
数据摄取是将数据从各种来源收集并导入到数据湖的过程。使用 AWS Glue,AWS Lake Formation 可以从 S3、RDS、AWS CloudFront、AWS CloudTrail、AWS Billing 和 AWS Elastic Load Balancing (ELB) 等导入数据。同时,还可以导入任何支持 Java Database Connectivity (JDBC) 连接器的本地数据库。
此外,AWS Lake Formation 与 AWS Glue 一起可以自动为摄取的数据添加标签,方便后续处理。这些标签可以存储特定数据的来源,或者根据敏感性(机密
超级会员免费看
订阅专栏 解锁全文

88

被折叠的 条评论
为什么被折叠?



