近来在工作中遇到了一个问题,就是表输入以colb字段(每一行每一个字段差不多1M左右),最后文本文件输出每一行的colb字段,由于字段本身比较大,要输出的文件有28w个之多kettle的机制是每8k作为一个流进行输出,造成在文本输出时每8k的输出,而不是完整的colb输出,(如果数据量小,倒没什么明显的影响,但是这里有28w行的数据,在文本展现的时候会有的文本输出不全面)这样在某个时间点停止作业,数据不完整,添加了阻塞,并且选中“pass all row”,会在数据流完成后,才会流向文本文件输出控件。

文章详细介绍了使用Kettle处理大数据输出到文本文件时遇到的问题及解决方案,重点在于优化数据流输出机制,确保完整数据输出,避免在特定时间点停止作业导致数据不完整的情况。
1081

被折叠的 条评论
为什么被折叠?



