
Datastage
文章平均质量分 73
oycn2010
这个作者很懒,什么都没留下…
展开
-
Datastage 分区partition
随机分区和Same分区和完全分区 随机(Random)分区是DataStage的分区方法之一。随机分区是这样操作的: DataStage将输入数据随机地分配到所有节点上。与循环分区类似,随机方法所产生的分区,各个节点上处理的数据也都大致相等。但与循环分区相比,随机分区需要的系统资源开销要大,因为这种方法在分区时,要为每条记录都生成一个随机值。相对循环分区来讲,开销自然要大。 Same分区原创 2013-08-20 15:16:30 · 653 阅读 · 0 评论 -
Datastage常用stage
Join: 数据集内连接,外连接(Left,Rigth) Lookup: 数据字典关联,左关联 Transform : 数据计算,通过利用系统函数和表达式进行数据列计算转换,输入输出Mapping; 数据分流,定义constraints数据分流、过滤。 条件表达式:相当于自定义函数 Aggregator 汇总 Copy 一个数据集复制为多个数据集 Filter 一个数据集不同过原创 2013-08-23 11:27:48 · 1823 阅读 · 0 评论 -
Datastage性能优化
State的拆分与合并: 如两个JOIN的stage都为大数量(几百万)且主表是一样的则考虑合并。 如一个stage中的两个表都为大表且关联很慢时考虑拆分为两个stage作Join。 Copy Stage 在内存中操作的组件,建议1进多出用copy组件 Tansformer Stage 是内嵌的程序,一旦作业执行到此stage 程序会暂停进程,外部调用so的程序, Trans原创 2013-08-23 14:20:38 · 1006 阅读 · 0 评论