云数据平台:AWS 与 Google Cloud 服务剖析
1. 多云解决方案概述
如今,多云解决方案越来越受到关注。组织选择利用不同云供应商的组件,一方面是为了降低供应商锁定的风险,另一方面是为了使用每个云所提供的一流产品。例如,有些组织大部分分析工作在 AWS 上进行,但机器学习用例则选择在 Google Cloud 上实现。分层云数据平台设计不仅允许在一个供应商内混合搭配产品和服务,还能构建成功的多云解决方案。
2. AWS 云数据平台服务
2.1 批量数据摄取
- AWS Glue :可作为摄取机制,但目前仅支持从 AWS S3 存储摄取文件或使用 JDBC 连接从数据库读取数据,不支持外部 API 和 NoSQL 数据库。
- AWS 数据库迁移服务(DMS) :可将本地关系数据库中的历史和持续数据迁移到不同的 AWS 目标。主要用于将运营数据库迁移到 AWS 托管的数据库服务,也可通过指定 S3 作为目标将数据摄取到数据平台。此外,它支持从 MS SQL Server、MySQL 和 Oracle 进行变更数据捕获(CDC)。如果不需要 CDC,建议使用 Glue 进行所有摄取,这样可以在一个服务中监控摄取状态、配置错误处理和警报等,还能简化作业调度和协调。
- AWS Lambda :若要从 AWS Glue 或 DMS 当前不支持的源摄取数据,可以使用无服务器的 AWS Lambda 环境实现并运行自己的摄取代码,但需要自行开发、测试和维护摄取代码。