亚马逊 Redshift 数据仓库迁移指南
1. 前期准备
在进行数据仓库迁移至亚马逊 Redshift 之前,需要进行一系列的准备工作,以确保迁移的顺利进行。
- 数据清理 :如果与某个数据集相关的所有报告都被判定为不必要,那么可以将该数据集从 ETL 流程中完全移除。同时,审查当前数据仓库中积累的数据,将需要高性能查询执行的数据与对执行 SLA 要求不那么严格的查询数据进行分类。
- 备份清理 :清理不再需要的现有备份模式或表,如果可能的话,删除这些对象。若要保留所需的备份表,可以使用卸载命令将这些表卸载到 Amazon S3 存储桶。Amazon S3 提供了一系列存储类,可根据用例场景和性能访问要求选择合适的 S3 存储类。卸载后,可以应用 S3 生命周期配置策略,将 S3 备份文件移动到更便宜的存储类。
2. 影响迁移策略决策的关键因素
迁移策略的选择会受到多个关键因素的影响,具体如下:
| 因素 | 说明 |
| ---- | ---- |
| 迁移数据量 | 由要迁移的源数据仓库的数据库数量、这些数据库中的模式数量以及这些模式中要迁移的对象数量决定。 |
| 所需转换 | 现有数据仓库可能有特定于当前供应商的专有组件,迁移到 Amazon Redshift 可能涉及数据映射和模式更改等转换。 |
| 数据波动性和可用性 | 要考虑现有数据仓库的正常运行时间和可用性要求,这些要求会影响迁移项目的选项。 |
| 迁移和 ETL 工具 | 可以选择将 ETL 工作流迁移到新的 AWS 原生服务(如 AWS Glue
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



