Flink支持不同的重启策略,可以控制在发生故障时如何重新启动作业。可以使用默认重新启动策略启动集群,该策略在未定义任何特定于作业的重新启动策略时始终使用。如果使用重新启动策略提交作业,此策略将覆盖群集的默认设置。
重启(Restart Strategies )策略种类:
1)固定延迟重启策略(Fixed Delay Restart Strategy)
2)故障率重启策略(Failure Rate Restart Strategy)
3)没有重启策略(No Restart Strategy)
4)后背重启策略(Fallback Restart Strategy)
默认重启策略是通过Flink的配置文件设置的flink-conf.yaml。定义策略的配置key为: restart-strategy。如果未启用检查点,则使用“无重启”策略。如果激活了检查点但未配置重启策略,则使用“固定延迟策略”:restart-strategy.fixed-delay.attempts: Integer.MAX_VALUE尝试重启。重新启动策略列表如下所示:
除了定义默认重启策略之外,还可以为每个Flink作业定义特定的重启策略。通过调用setRestartStrategyon上的方法以编程方式设置此重新启动策略ExecutionEnvironment。请注意,这也适用于StreamExecutionEnvironment。
例: 如何在Flink Job中设置固定延迟重启策略。如果发生故障,系统会尝试重新启动作业3次,并在连续重启尝试之间等待10秒。
val env = ExecutionEnvironment.getExecutionEnvironment()
env.setRestartStrategy(RestartStrategies.fixedDelayRestart(
3, // number of restart attempts
Time.of(10, TimeUnit.SECONDS) // delay
))
重启策略的配置项
固定延迟重启策略(Fixed Delay Restart Strategy)
固定延迟重启策略尝试给定次数重新启动作业。如果超过最大尝试次数,则作业最终会失败。在两次连续重启尝试之间,重启策略等待一段固定的时间。
例:
val env = ExecutionEnvironment.getExecutionEnvironment()
env.setRestartStrategy(RestartStrategies.fixedDelayRestart(
3, // number of restart attempts
Time.of(10, TimeUnit.SECONDS) // delay
))
故障率重启策略(Failure Rate Restart Strategy)
故障率重启策略在故障后重新启动作业,但是当failure rate超过(每个时间间隔的故障)时,作业最终会失败。在两次连续重启尝试之间,重启策略等待一段固定的时间。
例:
val env = ExecutionEnvironment.getExecutionEnvironment()
env.setRestartStrategy(RestartStrategies.failureRateRestart(
3, // max failures per unit
Time.of(5, TimeUnit.MINUTES), //time interval for measuring failure rate
Time.of(10, TimeUnit.SECONDS) // delay
))
没有重启策略(No Restart Strategy)
作业直接失败,不尝试重启。可以通过编程方式设置no restart策略:
val env = ExecutionEnvironment.getExecutionEnvironment()
env.setRestartStrategy(RestartStrategies.noRestart())
后背重启策略(Fallback Restart Strategy)
使用群集定义的重新启动策略。这对于启用检查点的流式传输程序很有帮助。默认情况下,如果没有定义其他重启策略,则选择固定延迟重启策略。