ETL过程---留念2011年的点滴（三）

最新推荐文章于 2025-12-01 02:11:37 发布

原创最新推荐文章于 2025-12-01 02:11:37 发布 · 292 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#作业 #文档 #数据库 #工具 #数据仓库 #工作

本文探讨了在ETL过程中如何有效地组织大量作业，提出了按模块和功能分类的方法，并通过实例说明了如何优化作业执行效率及错误处理流程。

上节说了ETL工具，这节就说说ETL过程。

ETL过程，是使用ETL工具去解决实际具体的项目中的问题的一个实施过程（当然，如果不想用ETL工具，也称为ETL过程）。具体怎么实施，就不在这重复了。

这里就说一下作业如果有效的组织。

在经分系统中，多则上千个作业，少则数十个作业，对这些作业如何组织起来，实现预期的目的，是ETL实施中的一个关键性的问题。

前人的经验告诉我们，对于数量众多的东西，分而治之是行之有效的方法。方法有了，那么该如何分呢？如何治呢？

组织作业的办法：
1.按模块进行分类。   就是通常说的主题，主要是为了确保业务上的完整性。
如财务，三户关系、产品，都可以单独分开，定义作业编码的1-2位，表示对应模块
财务：10    三户关系： 11    产品： 12

2.按功能进行分类。就是按照先后步骤，有利于数据分层。
如抽取作业、加载作业、转换作业，定义作业编码3-4位表示对应的功能
抽取作业： 21 加载作业： 31 转换作业 41

那么我们看到作业的前四位编码是 1041 ，就可以立即知道，这是财务模块中的转换作业

把作业分类好，只是有序的工作中的第一步，接下来要考虑这些作业组织到一起的时间效率，这些作业重开始节点到结束节点，运行完，需要多少时间？3个小时、5个小时、10个小时，都有可能。我们需要控制这些时间，是我们工作进度的重要保证和有序运行。

假如有个欠费表，里面有所有的历史欠费记录，记录条数2.5亿条，导出成数据后文件大小为13个G，操作系统限制文件大小最大不能超过2G，
现在需要抽取这个表的数据，加载到新的数据仓库表中，时间控制在30分钟内，该如何处理呢？

1.第一个想法，配置一个单独的作业把欠费表数据直接导出，纪录一下导出时间，能在30分钟内导出就ok了。可能你会发现，此法行不通。

2.第二个想法，配置一个单独的作业，把欠费表中当月的欠费纪录导出，纪录一下导出时间，如果在10分钟内导出完成就有可行性。

3.第三个想法，配置一个单独的作业，把欠费表中某个地市的欠费纪录导出，纪录一下导出时间，如果在3分钟内导出完成就有可行性。

上面说的2和3，都是一个可行的方法，具体到实际情况，就是要确认欠费表，有没有分区?以哪个字段分区？有没有建索引？在哪个字段建了索引？

假设考虑到上面的情况，我们用了5个作业并行抽取欠费表，在30分钟内完成了。就还需要为这5个作业配置相应的触发依赖关系。

到这还没有结束，还要考虑，当5个作业运行时，4个作业正确了，1个作业报错了，这个处理的方法和步骤是什么？都应该在这个时候确定好，利于后续的维护工作。

这些算完了？没有，还有最后一步，编写相应的文档，文档内容尽量详细，每个关键点都要说清楚，不能产生歧义。首次编写肯定感觉很麻烦，要坚持，文档是一切的基础，是产出投入比很高的一个工序，当数据库拓机时，我第一个想的是组织作业的文档在什么地方，而不是数据库什么时候能启起来。

可能有人说，我现在系统中只有几十个作业，是不是就可以不采用分而治之的方法了，因为采用这个方法会增加实施的复杂度。

我的回答是，如果一个人能维护过来，你就可以不需要给自己添麻烦了。如果系统维护超过两个人，还是采取这个方法吧，不然的话，有人会骂娘的。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。