Flink Yarn TaskManager|JobManager日志采集方案

本文介绍了在Flink on Yarn模式下,如何针对Flink 1.7.2/1.10及1.12.5/1.13.0/1.14.0版本实现TaskManager和JobManager的日志实时采集。通过修改配置,添加特定jar文件,并在Kafka中设置单分区topic,确保日志顺序性,从而实现实时报警和问题定位。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

背景

Flink on Yarn 的模式下,TaskManager的日志会存储到所在的 DataNode 上,当 Flink 任务发生异常,产生异常日志时,需要第一时间感知任务已经出现异常,避免影响业务。因此需要将Flink任务的日志实时收集起来,任务出现异常日志立刻报警,做的真正意义上的实时报警,,而不是等Flink任务掉线了再发出报警。收集任务日志的好处除了任务掉线方便我们通过日志定位问题,还可以支持日志实时报警,搜索,展示等功能的实现。

Flink-1.7.2/1.10

1、修改$FLINK_HOME/conf/log4j.properties配置文件如下

################################################################################
#  Licensed to the Apache Software Foundation (ASF) under one
#  or more contributor license agreements.  See the NOTICE file
#  distributed with this work for additional information
#  regarding copyright ownership.  The ASF licenses this file
#  to you under the Apache License, Version 2.0 (the
#  "License"); you may not use this file except in compliance
#  with the License.  You may obtain a copy of the License at
#
#      http://www.apache.org/licenses/LICENSE-2.0
#
#  Unless required by applicable law or agreed to in writing, software
#  distributed under the License is distributed on an "AS IS" BASIS,
#  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
#  See the License for the specific language governing permissions and
# limitations under the License.
################################################################################

# This affects logging for both user code and Flink
log4j.rootLogger=INFO, file,kafka

# Uncomment this if you want to _only_ change Flink's logging
#log4j.logger.org.apache.flink=INFO

# The following lines keep the log level of common libraries/connectors on
# log level INFO. The root logger does not override this. You have to manually
# change the log levels here.
log4j.logger.akka=INFO
log4j.logger.org.apache.kafka=INFO
log4j.logger.org.apache.hadoop=INFO
log4j.logger.org.apache.zookeeper=INFO

# Log all infos in the given file
log4j.appender.file=org.apache.log4j.FileAppender
log4j.appender.file.file=${log.file}
log4j.appender.file.append=false
log4j.appender.file.layout=org.apache.log4j.PatternLayout
log4j.appender.file.layout.ConversionPattern=%d{yyyy-MM-dd HH:mm:ss,SSS} %-5p %-60c %x - %m%n

# Suppress the irrelevant (wrong) warnings from the Netty channel handler
log4j.logger.org.apache.flink.shaded.akka.org.jboss.netty.channel.DefaultChannelPipeline=ERROR, file

log4j.appender.kafka=org.apache.kafka.log4jappender.KafkaLog4jAppender
log4j.appender.kafka.brokerList=CentOS:9092
log4j.appender.kafka.topic=flink_job_logs
log4j.appender.kafka.compressionType=none
log4j.appender.kafka.requiredNumAcks=0
log4j.appender.kafka.syncSend=true
log4j.appender.kafka.layout=org.apache.log4j.PatternLayout
log4j.appender.kafka.layout.ConversionPattern={"time":"%d{yyyy-MM-dd HH:mm:ss}","level":"%p","thread":"%t","source":"${log.file}","message":"%d{yyyy-MM-dd HH:mm:ss,SSS} %-5p %-60c %x - %m"}
log4j.appender.kafka.level=INFO
log4j.logger.kafka=INFO
log4j.logger.org.apache.kafka=WARN

2、在$FLINK_HOME/lib目录下添加如下jar文件kafka-clients-x.x.x.jarkafka-log4j-appender-x.x.x.jar

[root@centos ~]# ls -l /usr/flink-1.7.2/lib/
total 94504
-rw-r--r--. 1 hdfs 
<think>好的,用户现在想了解如何在Fink的YARN Session模式下设置TaskManager的JVM内存大小。首先,我需要回想一下之前用户的问题和我的回答。之前用户询问了JobManagerTaskManager日志的区别,现在转向了资源配置,尤其是内存设置。这说明用户可能正在实际部署Flink应用,遇到了性能调优的问题,或者正在准备环境配置。 接下来,我需要确认FlinkYARN Session模式下的配置方式。YARN作为资源管理框架,Flink作为其上的应用,需要遵循YARN的资源管理机制。YARN负责分配容器,每个TaskManager对应一个容器,容器的资源包括内存和CPU。Flink的配置参数需要与YARN的资源配置协调,否则可能出现资源不足或浪费的情况。 用户的问题集中在TaskManager的JVM内存设置。这里有几个关键点:首先,Flink的内存模型包括总内存、JVM堆内存、堆外内存等部分。其次,在YARN模式下,需要同时设置Flink的参数和YARN的资源请求参数,因为YARN会根据请求分配容器资源。如果只设置Flink参数而忽略YARN的配置,可能会导致容器内存不足,从而引发OOM错误。 我需要拆解配置步骤。首先,确定TaskManager的总内存,这包括JVM堆内存、堆外内存、网络缓冲、框架堆外等部分。然后,通过Flink的配置文件或启动参数设置这些值。同时,YARN的容器内存需要至少等于TaskManager的总内存,否则YARN会杀死超用内存的容器。 常见的参数包括taskmanager.memory.process.size(或taskmanager.memory.flink.size,取决于版本),这个参数决定了Flink认为TaskManager需要的内存总量。同时,YARN的参数yarn.containers.vcores和yarn.container.memory需要对应设置,确保YARN分配的容器足够大。 另外,需要注意不同Flink版本之间的差异。例如,1.10之后的版本内存配置有所变化,引入了更细粒度的内存控制。用户可能使用的是较新版本,因此需要确认参数的正确性。同时,堆外内存的设置对于某些应用(如大量网络传输或使用原生内存的组件)非常重要,需要合理分配,避免OOM。 用户可能的误区是只设置JVM堆内存,而忽略了总内存和其他部分,导致YARN容器内存不足。因此,在回答中需要强调同时配置FlinkYARN参数的重要性,并提供示例配置,帮助用户理解各部分的关系。此外,常见问题如内存分配不足、参数冲突等也需要提及,帮助用户避免典型错误。 最后,应该总结步骤,强调验证方法,比如检查YARN的Web UI确认容器资源,或者查看日志中的内存分配信息,确保配置生效。这样用户可以实际操作并验证他们的配置是否正确。</think>在 Flink 的 **YARN Session 模式**下,设置 TaskManager 的 JVM 内存分配大小需要通过 Flink 的配置参数和 YARN 的资源请求参数协同完成。以下是具体配置方法和原理说明: --- ### 一、核心配置参数 FlinkTaskManager 内存由多个部分组成,需通过以下参数定义: | **参数名** | **作用** | |------------------------------------|-------------------------------------------------------------------------| | `taskmanager.memory.process.size` | **总内存**(JVM进程总内存,包括堆内外内存、网络缓冲、框架内存等,必须与 YARN 容器内存一致) | | `taskmanager.memory.jvm-metaspace` | JVM Metaspace 内存大小(默认 256MB) | | `taskmanager.memory.jvm-overhead` | JVM 开销内存(用于线程栈、本地内存等,默认总内存的 10%) | --- ### 二、配置步骤(YARN Session 模式) #### 1. **设置 Flink 配置文件(`flink-conf.yaml`)** 在 `flink-conf.yaml` 中直接定义 TaskManager 的内存参数: ```yaml # 设置 TaskManager 总内存(必须 <= YARN容器内存) taskmanager.memory.process.size: 4096m # 4GB # 可选:调整堆内存(默认总内存的约40%~50%) taskmanager.memory.jvm.heap.size: 2048m # 2GB # 可选:调整堆外内存(Direct Memory,用于网络缓冲等) taskmanager.memory.managed.fraction: 0.3 # 托管内存占比(默认0.4) ``` #### 2. **启动 YARN Session 时指定资源** 在启动命令中通过 `-D` 参数覆盖配置,并指定 YARN 容器的资源: ```bash ./bin/yarn-session.sh \ -D taskmanager.memory.process.size=4096m \ -D yarn.containers.vcores=2 \ # 每个容器的vCPU数量 -D yarn.container.memory=4096 \ # 每个容器的总内存(单位MB,必须 >= taskmanager.memory.process.size) -n 4 # 启动的TaskManager数量 ``` --- ### 三、内存分配逻辑 #### 1. **内存组成公式** Flink 会按以下规则分配内存: $$ \text{总内存} = \text{堆内存} + \text{堆外内存} + \text{网络缓冲} + \text{Metaspace} + \text{JVM开销} $$ #### 2. **参数优先级** - 如果显式指定 `taskmanager.memory.jvm.heap.size`,堆内存按指定值分配。 - 否则,堆内存按总内存的默认比例计算(例如:总内存的 40%)。 --- ### 四、验证配置是否生效 #### 1. **通过 YARN Web UI 检查** 访问 YARN ResourceManager Web UI(如 `http://<yarn-rm-host>:8088`),查看容器分配的内存是否与配置一致。 #### 2. **查看 TaskManager 日志** 在 TaskManager 启动日志中搜索以下内容: ```log INFO org.apache.flink.runtime.taskexecutor.TaskManagerRunner - Starting TaskManager with ResourceID: {...} JVM Memory Settings: - Total Process Memory: 4096mb - JVM Heap Size: 2048mb - Managed Memory Size: 1228mb ... ``` --- ### 五、常见问题与调优建议 1. **容器被 YARN 杀死(OOM)** - 原因:`yarn.container.memory` < `taskmanager.memory.process.size`。 - 解决:确保 YARN 容器内存 >= Flink 配置的总内存。 2. **堆外内存不足(`OutOfMemoryError: Direct buffer memory`)** - 原因:网络缓冲或 RocksDB 使用过多 Direct Memory。 - 解决:增大 `taskmanager.memory.process.size` 并调整 `taskmanager.memory.managed.fraction`。 3. **Metaspace 溢出** - 原因:动态加载类过多(如频繁部署作业)。 - 解决:显式设置 `taskmanager.memory.jvm-metaspace.size=512m`。 --- ### 六、完整配置示例 ```yaml # flink-conf.yaml taskmanager.memory.process.size: 8192m # 总内存 8GB taskmanager.memory.jvm.heap.size: 4096m # 堆内存 4GB taskmanager.memory.managed.fraction: 0.4 # 托管内存占40% taskmanager.memory.jvm-metaspace.size: 512m taskmanager.memory.jvm-overhead.min: 512m ``` 启动命令: ```bash ./bin/yarn-session.sh \ -D yarn.container.memory=8192 \ -D yarn.containers.vcores=4 \ -n 6 ``` --- ### 总结 - **核心原则**:确保 YARN 容器内存 >= Flink TaskManager 配置的总内存。 - **调优重点**:根据作业特性(如批处理/流处理、状态后端类型)平衡堆内存与堆外内存。 - **验证手段**:通过 YARN UI 和 TaskManager 日志双重确认配置生效。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值