背景:为一家大型企业本地化BI系统做上云迁移的总体方案。客户对当前本地的BI系统不满意,希望迁移到AWS云之后,能够重新用Tableau做新的BI报表设计。所以这不是本地系统的平滑迁移,而是需要在云上重建BI系统的优化迁移。因此,主要内容是BI数据的迁移,利用AWS原生服务和生态厂商服务重建数据仓库和BI报表,并保留本地其他业务系统的联系和数据源。
业务需求
- 客户公司为了匹配整体业务上云策略,计划将当前BI系统迁移至AWS公有云;
- 当前客户本地BI系统数据包含3种模型 (IMS ,CPA ,Sales);
当前整体数据架构
GODW(Global Oracle Data Warehouse)分为两步处理,ETL7.1和ETL7.2:
ETL7.1:从数据源中提取数据做处理,构建ODS
ETL7.2:根据企业定义标准,转换和加载数据到数据仓库
企业当前BI系统
- 数据仓库: GODW (Global Oracle Data Warehouse)
- ETL 工具: Informatica PowerCenter 10.1.1 HF2
- Report 工具: Tableau 2018.1.4
- 数据源: FlatFiles and SQL Server
迁移后的解决方案
- 数据仓库: AWS Redshift and S3
- ETL 工具 : Informatica PowerCenter / Informatica Intelligent Cloud Services
- Report 工具 : Tableau 2018.1.4
- 数据源: FlatFiles, SQL Server and GODW
迁移方案的范围
- 现有的数据ETL处理过程迁移至AWS
- 现有GODW数据和历史数据备份迁移至AWS
- 在AWS上利用Redshift开发新的DW
- 基于AWS Redshift数据仓库构建新的BI报表
迁移过程
阶段1:
工作内容 | 工具 | 输出 | |
调研与评估阶段 | 1.业务需求范围锁定: 需求收集; 业务关系识别与描述 | •应用发现服务(ADS) 用于识别高保真、实时的应用状况以及依赖关系; •模式转换工具 (SCT) 用于评估当前数据结构和转换数据架构 | 现有系统评估和分析报告 |
2. 需求评估: • ETL 方法; •表结构; •数据模型; •依赖关系; •数据量; •敏感数据; •安全等级 |
阶段2:
工作内容 | 工具 | 输出 | |
设计和规划阶段 | 1.系统设计: 包括AWS IAM账号体系设计,数据注入和流向设计,AWS资源选择,安全和扩展性部署规划; 2. 云上ETL过程和数据模型设计; 3. Tableau 报表设计 | •AWS 数据库迁移服务 (DMS), 模式转换工具SCT将数据从 GODW 至 AWS Redshift转换; •安全专线连接; •RedShift数据仓库服务 •第三方Tableau工具 | 系统架构设计;报表设计;迁移计划和指导书 |
4. 迁移规划: •批量历史数据迁移和增量数据迁移; •工具选择; •数据量,网速和时间成本估算; •风险评估和应对措施,以及回滚方案 |
目标解决方案设计--从GODW到AWS的数据流:
- 源数据应该通过DMS从本地迁移到S3的存储桶。DMS支持批量数据迁移和增量数据迁移,ETL日志也可以发送到S3存储。
- Informatica EC2主机将处理从登陆S3桶到模型S3桶的过程(在AWS中)。
- 处理后的数据保存到模型S3桶中。
- 从S3模型桶中加载数据到Redshift DW服务中。
- Tableau Server用于生成基于Redshift数据的模型报表。
阶段3:
工作内容 | 工具 | 输出 | |
执行实施阶段 | 1.AWS 资源准备; 2.专线连接准备; 3.最小化操作设置和验证:在一致同意的部分用例上,使用已确认的AWS原厂服务、数据模型和前端可视化交付; 4.集成测试与验证; 5.验证通过后,进行总体系统迁移和部署 | •AWS 数据库迁移服务 (DMS), 模式转换工具SCT将数据从 GODW 至 AWS Redshift转换; •安全专线连接; •RedShift数据仓库服务 •S3, EC2, Informatica | 迁移结果 |
阶段4:
工作内容 | 工具 | 输出 | |
BI 报表开发和投入生产 | 1.在AWS上开发新的BI系统,使用Tableau工具和报表可视化; 2.验收测试 3.修改DNS使BI服务割接到AWS新系统 4.提供操作和监视/维护服务2周 | Redshift, Informatica, Tableau | 在AWS运行的生产系统 |
假设
- 客户提供经过清洗的干净的数据(将用作ETL和生成报表的源)
- POV将使用云原生服务
- 一个简单的数据模型将作为这个POV的作用域(例如 Sales)。
- 用Tableau开发基于AWS的报表
项目计划
根据项目实际周期预估和约束做出合理计划:
如需进一步获取详细AWS云业务方案或者其他云迁移咨询方案,请在评论区留言与作者讨论。