Flink SQL 常用调优

本文详细解读了JDBC配置中的关键参数,如max-retry-timeout、scan分区选项、并发控制(auto-commit)等,帮助开发者提升性能并理解最佳实践。涵盖了lookup cache、sink缓冲策略和重试机制,适用于数据库驱动程序的高效调用。

1、建表

1.1、JDBC

connection.max-retry-timeout

可选60sDuration最大重试超时时间,以秒为单位且不应该小于 1 秒。

scan.partition.column

可选(none)String用于将输入进行分区的列名。请参阅下面的分区扫描部分了解更多详情。

scan.partition.num

可选(none)Integer分区数。

scan.partition.lower-bound

可选(none)Integer第一个分区的最小值。

scan.partition.upper-bound

可选(none)Integer最后一个分区的最大值。

scan.fetch-size

可选0Integer每次循环读取时应该从数据库中获取的行数。如果指定的值为 '0',则该配置项会被忽略。

scan.auto-commit

可选trueBoolean在 JDBC 驱动程序上设置 auto-commit 标志, 它决定了每个语句是否在事务中自动提交。有些 JDBC 驱动程序,特别是 Postgres,可能需要将此设置为 false 以便流化结果。

lookup.cache.max-rows

可选(none)Integerlookup cache 的最大行数,若超过该值,则最老的行记录将会过期。 默认情况下,lookup cache 是未开启的。请参阅下面的 Lookup Cache 部分了解更多详情。

lookup.cache.ttl

可选(none)Durationlookup cache 中每一行记录的最大存活时间,若超过该时间,则最老的行记录将会过期。 默认情况下,lookup cache 是未开启的。请参阅下面的 Lookup Cache 部分了解更多详情。

lookup.max-retries

可选3Integer查询数据库失败的最大重试时间。

sink.buffer-flush.max-rows

可选100Integerflush 前缓存记录的最大值,可以设置为 '0' 来禁用它。

sink.buffer-flush.interval

可选1sDurationflush 间隔时间,超过该时间后异步线程将 flush 数据。可以设置为 '0' 来禁用它。注意, 为了完全异步地处理缓存的 flush 事件,可以将 'sink.buffer-flush.max-rows' 设置为 '0' 并配置适当的 flush 时间间隔。

sink.max-retries

可选3Integer写入记录到数据库失败后的最大重试次数。

sink.parallelism

可选(none)Integer用于定义 JDBC sink 算子的并行度。默认情况下,并行度是由框架决定:使用与上游链式算子相同的并行度。

Flink SQL中,常用的配置包括:regular join、Split Distinct化方法、LocalGlobal化、MiniBatch等。 regular join是Flink SQL常用的连接操作,包括inner join、left join和right join。在regular join中,左右表的数据都会一直保存在状态里,不会清理。如果需要清理数据,可以设置TTL(Time-To-Live)或使用Flink SQL的interval join。 Split Distinct化方法是一种化方法,可以用于处理包含UDAF(User-Defined Aggregation Function)的Flink SQL语句。但目前在包含UDAF的Flink SQL中不能使用Split Distinct化方法。 LocalGlobal化是Flink SQL中的一种化策略。该化策略可以将聚合操作拆分为两个GROUP聚合操作,并参与LocalGlobal化。这个功能在Flink 1.9.0版本及以上版本才支持。 MiniBatch是Flink SQL中的一种机制,可以将输入数据分批处理,以减少资源消耗。开启MiniBatch需要依赖于MiniBatch的参数设置。常用的MiniBatch参数包括: - `table.exec.mini-batch.enabled`:是否开启MiniBatch,默认为false。 - `table.exec.mini-batch.allow-latency`:批量输出的间隔时间,用于控制数据处理的延迟。 - `table.exec.mini-batch.size`:每个批次最多缓存数据的条数,可以根据需求进行整。 除了上述常用配置外,还可以根据具体需求设置其他参数,如聚合策略`table.optimizer.agg-phase-strategy`,用于控制聚合操作的执行策略。默认为AUTO,还支持TWO_PHASE(使用LocalGlobal两阶段聚合)和ONE_PHASE(仅使用Global一阶段聚合)两种策略。 示例代码中展示了如何设置这些参数: ``` // 初始化table environment TableEnvironment tEnv = ... // 获取tableEnv的配置对象 Configuration configuration = tEnv.getConfig().getConfiguration(); // 设置参数: // 开启MiniBatch configuration.setString("table.exec.mini-batch.enabled", "true"); // 批量输出的间隔时间 configuration.setString("table.exec.mini-batch.allow-latency", "5 s"); // 防止OOM,设置每个批次最多缓存数据的条数,可以设为2万条 configuration.setString("table.exec.mini-batch.size", "20000"); // 开启LocalGlobal configuration.setString("table.optimizer.agg-phase-strategy", "TWO_PHASE"); ``` 综上所述,这些是Flink SQL常用的配置。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Flink 化(六) --------- FlinkSQL ](https://blog.csdn.net/m0_51111980/article/details/130102786)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值