亚马逊 Redshift 批量数据加载与数据模型构建指南
1. 亚马逊 Redshift 表创建基础
在亚马逊 Redshift 中创建表时,有多种选项可用于选择每个表的分布、排序和编码方式。不过,在很多情况下,我们可以使用默认的 AUTO 选项。使用 AUTO 时,亚马逊 Redshift 服务会监控表的实际使用情况,并自动为你调整表的设置。
2. 向亚马逊 Redshift 加载批量数据的方法
当你创建好数据表,并且数据文件已存于 Amazon S3 中后,就可以将数据加载到亚马逊 Redshift 了。加载数据的方法有多种:
- 使用 COPY 命令
- 使用 AWS Glue 或第三方 ETL 工具
- 使用 SQL 命令手动加载
- 使用 Query Editor V2
下面是这些方法的详细介绍:
| 加载方法 | 特点 | 适用场景 |
| ---- | ---- | ---- |
| COPY 命令 | 简单高效,可直接从 Amazon S3、Amazon DynamoDB、Amazon EMR 以及外部数据源(如 CSV 和 JSON 文件)加载数据,能自动并行化数据加载,处理大量数据快速便捷 | 各种规模的数据加载,尤其是大数据集 |
| AWS Glue 或第三方 ETL 工具 | 可使用 Python 或 Scala 语言进行数据转换,运行在数据处理引擎上,便于发现、准备、移动和集成多源数据 | 复杂的数据转换和集成场景 |
| SQL 命令手动加载 | 可使用 INSERT 和 CREATE TABLE 等命令加载数据,多行为插入或批量插入操作
超级会员免费看
订阅专栏 解锁全文
1127

被折叠的 条评论
为什么被折叠?



