亚马逊 Redshift 数据转换与调度指南
1. ETL 与 ELT 的选择
ETL 工具通常具备捕获和组织有关数据源、目标和作业特征以及数据沿袭的元数据的能力。它们还能编排作业并在多个数据平台之间建立依赖关系。
ETL 和 ELT 策略各有优缺点,最终选择取决于分析工作负载的具体需求,包括数据源的特征、转换要求以及项目的性能和可扩展性需求。为应对各自的挑战,许多用户采用混合方法,通过构建将 ETL 代码转换为 SQL 语句的作业,利用 ETL 工具的元数据管理和编排功能以及 ELT 处理的性能和可扩展性。
2. 亚马逊 Redshift 的数据库内转换
如今数据种类繁多且变化迅速,设计数据平台的挑战在于使其既具可扩展性又具灵活性。亚马逊 Redshift 通过其数据库内转换(ELT)功能不断创新,能在一处处理所有数据。
它是与 ANSI SQL 兼容的关系数据库,支持 SQL 命令,为大多数数据库开发人员提供熟悉的开发环境。此外,还支持现代数据平台中的高级功能,如窗口函数、HyperLogLog 函数和递归 CTE 等。同时,它支持对“半结构化数据”进行原地查询,分析师可以高效访问此类数据,无需等待其加载到表和列中。
如果需要扩展其功能,可以使用“用户定义函数”,这些函数可以在数据库内运行或调用外部服务。“存储过程”则允许将转换逻辑打包,可根据输入参数返回结果集,甚至执行数据加载和管理操作。
3. 半结构化数据处理
半结构化数据不符合关系数据库中预期的严格模式,常见于 Web 日志、传感器数据或 API 消息中。它包含数组和嵌套结构等复杂值,通常与 JSON 等序列化格
Redshift数据转换与调度实战
超级会员免费看
订阅专栏 解锁全文
1584

被折叠的 条评论
为什么被折叠?



