flink常用参数说明

一、flink run参数:
flink run命令执行模板:flink run [option]

-c,–class : 需要指定的main方法的类

-C,–classpath : 向每个用户代码添加url,他是通过UrlClassLoader加载。url需要指定文件的schema如(file://)

-d,–detached : 在后台运行

-p,–parallelism : job需要指定env的并行度,这个一般都需要设置。

-q,–sysoutLogging : 禁止logging输出作为标准输出。

-s,–fromSavepoint : 基于savepoint保存下来的路径,进行恢复。

-sae,–shutdownOnAttachedExit : 如果是前台的方式提交,当客户端中断,集群执行的job任务也会shutdown。

二、flink run -m yarn-cluster参数
-m,–jobmanager : yarn-cluster集群
-yd,–yarndetached : 后台
-yjm,–yarnjobManager : jobmanager的内存
-ytm,–yarntaskManager : taskmanager的内存
-yn,–yarncontainer : TaskManager的个数
-yid,–yarnapplicationId : job依附的applicationId
-ynm,–yarnname : application的名称
-ys,–yarnslots : 分配的slots个数

例:flink run -m yarn-cluster -yd -yjm 1024m -ytm 1024m -ynm -ys 1

三、flink-list
flink list:列出flink的job列表。

flink list -r/–runing :列出正在运行的job

flink list -s/–scheduled :列出已调度完成的job

四、flink cancel
flink cancel [options] <job_id> : 取消正在运行的job id

flink cancel -s/–withSavepoint <job_id> : 取消正在运行的job,并保存到相应的保存点

通过 -m 来指定要停止的 JobManager 的主机地址和端口

例: bin/flink cancel -m 127.0.0.1:8081 5e20cb6b0f357591171dfcca2eea09de

五、flink stop :仅仅针对Streaming job
flink stop [options] <job_id>

flink stop <job_id>:停止对应的job

通过 -m 来指定要停止的 JobManager 的主机地址和端口

例: bin/flink stop -m 127.0.0.1:8081 d67420e52bd051fae2fddbaa79e046bb

取消和停止(流作业)的区别如下:

cancel() 调用,立即调用作业算子的 cancel() 方法,以尽快取消它们。如果算子在接到 cancel() 调用后没有停止,Flink 将开始定期中断算子线程的执行,直到所有算子停止为止。
stop() 调用,是更优雅的停止正在运行流作业的方式。stop() 仅适用于 Source 实现了 StoppableFunction 接口的作业。当用户请求停止作业时,作业的所有 Source 都将接收 stop() 方法调用。直到所有 Source 正常关闭时,作业才会正常结束。这种方式,使作业正常处理完所有作业。
六、 flink modify 修改任务并行度
flink modify <job_id> [options]

flink modify <job_id> -p /–parallelism p : 修改job的并行度

例: flink modify -p 并行数 <job_pid>

七、flink savepoint
flink savepoint [options] <job_id>

eg: # 触发保存点

flink savepoint <job_id> hdfs://xxxx/xx/x : 将flink的快照保存到hdfs目录

使用yarn触发保存点

flink savepoint <job_id> <target_directory> -yid <application_id>

使用savepoint取消作业

flink cancel -s <tar_directory> <job_id>

从保存点恢复

flink run -s <target_directoey> [:runArgs]

如果复原的程序,对逻辑做了修改,比如删除了算子可以指定allowNonRestoredState参数复原。

flink run -s <target_directory> -n/–allowNonRestoredState [:runArgs]

savepoint 与 checkpoint 的区别

checkpoint是增量做的,每次的时间短,数据量小,只要在程序里面启用后会自动触发,用户无需感知;savepoint是全量做的,时间长,数据量大,需要用户主动触发。

checkpoint 是作业failover 的时候自动使用,不需要用户指定,savepoint 一般用于程序版本更新、bug修复、A/B Test 等场景,需要用户指定。

### Flink YARN 参数配置及说明 #### 配置概述 为了使Flink能够在YARN环境中高效运行并充分利用集群资源,需合理设置一系列参数。这不仅有助于提升任务执行效率和资源利用率,还能增强任务的稳定性和可靠性[^2]。 #### 基本环境变量配置 对于Flink on YARN模式而言,在启动前应确保已正确设置了必要的环境变量。具体来说,编辑`/etc/profile`文件以指定Hadoop配置目录的位置: ```bash vim /etc/profile export HADOOP_CONF_DIR=/opt/cloudera/parcels/CDH/lib/hadoop/etc/hadoop ``` 上述操作确保了Flink能访问到正确的Hadoop配置信息,从而顺利连接至YARN集群[^4]。 #### 启动命令及其选项解释 当提交Flink作业给YARN时,常用的启动命令如下所示: ```bash nohup bin/flink run \ -m yarn-cluster \ # 使用YARN作为集群管理器 -yn 7 \ # 请求分配的任务槽数量 -shdfs:///flink/savepoints/savepoint-* \ # 指定保存点路径用于恢复状态 -c *.jars/*test > Flink-RealtimeDAU.log 2>&1 & ``` 此命令中包含了多个重要参数,其中`-m yarn-cluster`指定了采用YARN集群管理模式;而`-yn`则定义了所需容器的数量。此外,还可以通过其他参数进一步调整资源配置,如内存大小、CPU核心数等[^3]。 #### 关键参数详解 针对更复杂的场景需求,可通过修改`flink-conf.yaml`来实现高级功能支持。以下是几个关键配置项的例子: - **开启基于ZooKeeper的高可用性** ```yaml high-availability: zookeeper # 设置HA方式为zookeeper high-availability.zookeeper.quorum: ha1:2181,ha2:2181,ha3:2181 # ZooKeeper服务器列表 ``` - **设定JobManager元数据存储位置** ```yaml high-availability.storageDir: hdfs://mycluster/flink/ha/ ``` - **控制应用程序最大重试次数** ```yaml yarn.application-attempts: 4 # 对应于YARN AM的最大尝试次数 ``` 这些配置共同作用下可有效提高系统的容错能力和稳定性,特别是在生产环境下显得尤为重要[^5]。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值