在写flink代码做实时处理的时候,对于延迟的数据,我们添加了乱序时间处理以及允许迟到数据之后,依旧有迟到的数据,可以采用侧输出流进行收集依旧迟到的数据。都写进关系型数据库(如MySQL可以处理,以此来保证数据的不丢)。
但是笔者在写侧输出流的时候,发现执行报错。Caused by: org.apache.flink.api.common.functions.InvalidTypesException: The types of the interface org.apache.flink.util.OutputTag could not be inferred. Support for synthetic interfaces, lambdas, and generic or raw types is limited at this point
定位到是因为侧输出流的问题,就点开源码进行查看。发现侧输出流需要传递的总是一个匿名实现类,笔者的代码里面传递的是一个对象,所以导致报错。源码如下:

所以:
OutputTag<Tuple2<String, Long>> info = new OutputTag<Tuple2<String, Long>>("late-data"){};
在new的时候需要加上大括号,作为匿名实现类进行传递。
Flink实时处理中数据延迟问题及侧输出流解决方案
本文介绍了在使用Flink进行实时数据处理时遇到的延迟数据问题,以及如何通过配置乱序时间和允许迟到数据来解决。然而,即便如此,仍有迟到数据存在。为确保数据不丢失,作者尝试利用侧输出流将这些数据存储到MySQL数据库。在实现过程中,由于错误地将对象传递给侧输出流,导致报错。经过源码分析,发现问题在于侧输出流需要接收匿名实现类而非普通对象。修正方法是在创建OutputTag时使用大括号创建匿名实现类。
530

被折叠的 条评论
为什么被折叠?



