【flink】RowData copy/clone方式

最新推荐文章于 2024-04-17 17:08:01 发布

原创最新推荐文章于 2024-04-17 17:08:01 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#flink #java #大数据

本文介绍了在ApacheFlink中，如何高效地复制RowData，包括使用复杂循环的方式和推荐的RowDataSerializer方法，强调了后者的简洁性和性能优势。

说明：一般用户常用的是GenericRowData。flink内部则多使用BinaryRowData。

方法一、循环解决(不推荐)：

代码较为复杂需要根据RowType获取到内部fields的logicalType，再使用RowData.createFieldGetter方法创建fieldGetters。

    public static void copyRowData(RowData input, GenericRowData output, List<RowData.FieldGetter> fieldGetters) {
        for (int i = 0; i < input.getArity() && i < output.getArity(); i++) {
            if (input instanceof GenericRowData) {
                output.setField(i, ((GenericRowData) input).getField(i));
            } else {
                Preconditions.checkArgument(fieldGetters != null);
                Object value = fieldGetters.get(i).getFieldOrNull(input);
                output.setField(i, value);
            }
        }
    }

方法二、使用RowDataSerializer(推荐)

使用RowDataSerializer.copy方法

public RowDataSerializer(RowType rowType) {
...
}

public RowData copy(RowData from) {
...
}

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lisacumt

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Flink系列：解决NoClassDefFoundError:org/apache/flink/streaming/api/environment/StreamExecutionEnvironment

NIO4444

05-31

1万+

问题 Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/flink/streaming/api/environment/StreamExecutionEnvironment at csdn.xdoctorx.SocketWindowWordCountJava.main(SocketWindowWordCountJava.java:45) Caused by: java.lang.ClassNotFou...

Flink系列：解决java.lang.NoClassDefFoundError: org/apache/flink/client/program/ContextEnvironment

NIO4444

05-31

3024

目录问题解决问题 SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder". SLF4J: Defaulting to no-operation (NOP) logger implementation SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details. Exception in thread "main" ja

参与评论您还未登录，请先登录后发表或查看评论

Flink字符串数据流转换数据类型（Row）流及Row的源码

热门推荐

长臂人猿的博客

02-22

1万+

文章目录1.Row定义2.常用方法2.1.构造函数2.2.getArity()2.3.getField(int pos)2.4.setField(int pos, Object value)2.5. Row of(Object... values)2.6. copy(Row row)2.7.project(Row row, int[] fields)2.8.Row join(Row first, Row... remainings)3.利用Row对象将流数据转成初始化动态表的数据类型3.1.说明3.2.直接

Flink-JDBC SQL Connector报错: java.lang.Integer cannot be cast to java.lang.Long

Hama White 的博客

11-22

3155

Flink-JDBC SQL Connector报错: java.lang.Integer cannot be cast to java.lang.Long

flink streamload写入doris

weixin_44378305的博客

09-14

4295

详细介绍了基于flink 1.16的各种写入方式，本文主要介绍的是基于flink 1.13的RowData 数据流(RowDataSerializer)写入

【Flink】Table\Sql API 笔记：Row和RowData

Chain的博客

08-21

7906

【Flink】Table\Sql API 笔记：Row和RowData

Flink程序Copy方式写入数据到GreenPlum

h6lkj的专栏

04-17

867

Flink程序Copy方式写入数据到GreenPlum

记使用flink1.11.3 org/apache/flink/api/common/state/CheckpointListener

biuubi的博客

11-11

2915

Exception in thread “main” java.lang.NoClassDefFoundError: org/apache/flink/api/common/state/CheckpointListener 使用的mysql-cdc的依赖版本太高了，降低版本就好了，真烦死了 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-ins

flink写文件报错（lang.NoClassDefFoundError: org/apache/flink/api/common/typeinfo/TypeInformation）

qq_39315954的博客

11-30

2151

1. 使用Flink存储parquet文件报错 21/07/15 14:24:47 INFO checkpoint.CheckpointCoordinator: Triggering checkpoint 2 (type=CHECKPOINT) @ 1626330287296 for job 06a80360b770722f8dd3e41252a5a8d7. 21/07/15 14:24:47 INFO filesystem.Buckets: Subtask 2 checkpointing for chec

【Flink】Flink Row和RowData的区别

九师兄

02-07

9580

Row 是暴露给 DataStream 用户用的，里面可以设置 RowKind，RowData 是 Table 内部的数据结构，在一些场景序列化会有提升，使用 Flink SQL 会直接应用上 RowData，当然高级用户想直接用 RowData 也是可以的，1.11 的新版 connector API 就是将 RowData 暴露给了 connector 开发者。 RowData如何构建？ SerializationSchema 如何构建 ...

Flink数据类型和序列化

gongpulin的博客

06-29

700

作者 | 马庆祥整理 | 毛鹤本文根据 Apache Flink 系列直播整理而成，由 Apache Flink Contributor、360 数据开发高级工程师马庆祥老师分享。文章主要从如何为 Flink 量身定制的序列化框架、Flink 序列化的最佳实践、Flink 通信层的序列化以及问答环节四部分分享。为 Flink 量身定制的序列化框架为什么定制? 为什么要为 Flink 量身定制序列化框架？大家都知道现在大数据生态非常火，大多数技术组件都是运行在 JVM 上的，Flink 也

Flink Row 与 RowData 的区别及应用场景

2301_79366435的博客

08-21

1342

需要注意的是，RowData 的字段访问方法是类型安全的，因此我们可以直接获取特定类型的字段值，而无需进行类型转换。在大数据处理领域，Apache Flink 是一个流式处理和批处理的开源框架，它提供了丰富的数据处理功能和高效的数据流处理引擎。在 Flink 中，Row 和 RowData 是两种常用的数据类型，用于表示数据集中的行。在实际开发中，可以根据数据处理的需求和性能要求来选择合能要求来选择合适的数据类型，以获得最佳的性能和开发体验。Flink Row 与 RowData 的区别及应用场景。

Flink源码解读(四) Flink1.9之新特性--数据结构二进制化&minibatch aggregation

小凯的博客

08-27

1417

数据结构二进制化源码解读 org/apache/flink/table/dataformat/BinaryRow.java 由Flink的最小内存管理单元 MemorySegment 支撑实现，能够大量减少序列化与反序列化的开销正如上图所示，一个binary row含有两个部分: 定长和变长部分 Fixed-length part: 一个字节长的header null bit sets ...

Flink RowData 与 Row 相互转化工具类

lisacumt的专栏

09-14

2878

Flink RowData 与 Row 相互转化工具类

Flink Icerberg 离线数仓-项目准备（三）

wank1259162的博客

07-04

866

本节主要是创建模拟数据，包括事实表和维度表，并通过Flink映射为Icerberg数据表，构成DWD层数据。测试数据目录 baswewebsite.log 数据格式 member.log 数据格式 memberRegtype.log 数据格式 pcenter_mem_paymoney.log 数据格式 pcenterMemViplevel.log 数据格式项目POM文件文件目录结构 1. 拷贝测试数据目录下的文件到/tmp/warehouse

Apache Doris 使用指南

qq_44619294的博客

09-27

403

Flink Doris Connector 可以支持通过 Flink 操作（读取、插入、修改、删除） Doris 中存储的数据

【flink】ColumnarRowData

1032851561的博客

07-21

1199

在调试flink读取parquet文件时，读出来的数据是，由于parquet是列式存储的文件格式，所以需要用一种列式存储的表示方式，就是用来表示列式存储的一行数据，它包含多个数组的数据结构，每个数组都代表一个列，并且数组中的元素是该列中的值，系统可以有效地加载和处理需要的列，从而提高查询性能，并减少不必要的数据访问和计算。RowData。

Flink DataStream Connectors 数据流格式

京河小蚁的博客

06-19

1530

Flink 内置支持 Apache Avro 格式。在 Flink 中将更容易地读写基于 Avro schema 的 Avro 数据。 Flink 的序列化框架可以处理基于 Avro schemas 生成的类。为了能够使用 Avro format，需要在自动构建工具（例如 Maven 或 SBT）中添加如下依赖到项目中。如果读取 Avro 文件数据，你必须指定 AvroInputFormat。示例：注意，User 是一个通过 Avro schema生成的 POJO 类。Flink 还允许选择 POJO

Flink中的数据序列化和反序列化

AI天才研究院

01-21

1896

1.背景介绍在Flink中，数据序列化和反序列化是一个非常重要的过程。它们决定了Flink如何将数据从一个格式转换为另一个格式，以及如何在分布式环境中传输和存储数据。在本文中，我们将深入探讨Flink中的数据序列化和反序列化，并讨论其核心概念、算法原理、最佳实践和实际应用场景。 1. 背景介绍 Flink是一个流处理框架，它可以处理大规模的、实时的、高速的数据流。为了实现高效的数据处理，F...

flink测试代码/export/server/flink/bin/flink run /export/server/flink-2.0.0/examples/streaming/WordCount.jar

最新发布

08-05

要运行 Flink 示例程序 `WordCount.jar` 并测试其流处理功能，需使用 Flink 的流处理 API（DataStream API），并确保程序运行在支持流处理的环境中。以下是实现步骤和注意事项： ### 环境准备 1. **启动 Flink 集群** 如果尚未启动 Flink 集群，可以使用以下命令启动本地集群： ```bash ./bin/start-cluster.sh ``` 这将启动一个 JobManager 和一个 TaskManager，适合本地测试使用。 2. **准备输入数据源** 流处理通常依赖于实时数据源，例如通过 `nc`（NetCat）发送的数据。启动一个监听端口的 NetCat 服务： ```bash nc -l 9009 ``` 这将等待用户输入数据，并将其作为流式输入发送到 Flink 程序。 ### 运行流处理 WordCount 示例 Flink 提供了 `SocketWindowWordCount` 示例程序，用于演示如何通过流处理 API 统计单词出现的次数。运行该程序的命令如下： ```bash ./bin/flink run -c com.flink.example.SocketWindowWordCount ./examples/streaming/SocketWindowWordCount.jar --port 9009 ``` 其中 `-c` 指定主类名，`--port` 表示连接的端口号。程序会从指定端口读取数据流，并进行窗口统计。 ### 示例程序代码以下是一个简化版的 `SocketWindowWordCount` 示例代码，展示了如何通过 DataStream API 实现流式 WordCount： ```java public class SocketWindowWordCount { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); DataStream<String> text = env.socketTextStream("localhost", 9009); DataStream<WordWithCount> windowCounts = text .flatMap((String value, Collector<WordWithCount> out) -> { for (String word : value.split("\\s")) { out.collect(new WordWithCount(word, 1)); } }) .keyBy("word") .timeWindow(Time.seconds(5)) .sum("count"); windowCounts.print().setParallelism(1); env.execute("Socket Window WordCount"); } public static class WordWithCount { public String word; public long count; public WordWithCount() {} public WordWithCount(String word, long count) { this.word = word; this.count = count; } @Override public String toString() { return word + " : " + count; } } } ``` 该代码通过 `socketTextStream` 方法从指定端口读取数据流，然后使用 `flatMap` 将文本拆分为单词流，再通过 `keyBy` 和 `timeWindow` 进行窗口统计，并最终输出单词计数结果[^4]。 ### 提交任务到 Flink 集群在 Flink 集群启动后，可以通过 Web UI 或命令行提交任务。命令行方式如下： ```bash ./bin/flink run -m localhost:8081 -c com.flink.example.SocketWindowWordCount ./examples/streaming/SocketWindowWordCount.jar --port 9009 ``` 其中 `-m` 指定 Flink 集群的 JobManager 地址，`-c` 指定主类名，`--port` 为数据源端口号。 ### 测试流处理功能 1. **发送测试数据** 在启动 NetCat 后，手动输入一些文本，例如： ``` hello world flink stream processing hello flink ``` 程序将根据设定的窗口大小（如 5 秒）输出单词计数结果。 2. **查看执行结果** Flink 程序的输出将显示在控制台，例如： ``` hello : 2 world : 1 flink : 2 stream : 1 processing : 1 ``` 这表明程序成功统计了窗口内的单词出现次数。 ### 注意事项 - **端口冲突**：确保使用的端口（如 9009）未被其他程序占用。 - **Flink 集群状态**：确保 Flink 集群正常运行，可以通过 Web UI（默认地址为 `http://localhost:8081`）查看任务状态。 - **依赖库**：如果程序依赖外部库（如 Kafka 连接器），需确保这些库已正确添加到 Flink 的 `lib` 目录或通过命令行指定。通过以上步骤，可以成功运行 Flink 的流处理示例程序，并验证其功能。如果遇到连接问题或任务失败，可检查日志文件（位于 Flink 的 `log` 目录）以获取详细信息[^4]。