ETL子系统与技术解析
1. 工作流监控器(Workflow Monitor)
成功的数据仓库需按照与业务部门的约定,保持稳定可靠的可用性。为达成此目标,ETL系统必须持续接受监控,确保ETL流程高效运行,且数据仓库能按时加载数据。
工作流监控器借助作业调度器捕获的元数据,提供一个综合考虑ETL系统多方面因素的仪表盘和报告系统。它可监控作业调度器启动的所有作业运行状态,包括待处理、运行中、已完成和已暂停的作业,并记录历史数据以支持性能趋势分析。关键性能指标涵盖处理的记录数、错误摘要和采取的操作等。多数ETL工具会捕获用于衡量ETL性能的指标,当ETL作业完成时间与历史记录有显著差异时,应触发警报。
此外,工作流监控器还需与作业调度器配合,跟踪基础设施组件的性能,如CPU使用率、内存分配与争用、磁盘利用率与争用、缓冲池使用情况、数据库性能以及服务器利用率与争用等。这些信息属于ETL系统的流程元数据,应纳入整体元数据策略。
ETL管道中可能出现性能瓶颈的常见原因如下:
1. 对源系统或中间表的查询索引不佳
2. SQL语法导致优化器选择错误
3. 随机访问内存(RAM)不足导致系统颠簸
4. 在关系型数据库管理系统(RDBMS)中进行排序
5. 转换步骤缓慢
6. 过多的输入/输出(I/O)操作
7. 不必要的先写后读操作
8. 从头删除并重建聚合,而非增量更新
9. 过滤(变更数据捕获)在管道中应用过晚
10. 未充分利用并行和流水线处理的机会
11. 不必要的事务日志记录,尤其是在进行更新操作时
12. 网络流量和文件传输开销
超级会员免费看
订阅专栏 解锁全文
927

被折叠的 条评论
为什么被折叠?



