Flink HistoryServer配置

本文介绍了Flink的HistoryServer,其主要用于存储和查看任务历史记录,可参考官网获取具体信息。同时分析了相关参数配置,如conf/flink-conf.yaml文件中的jobmanager.archive.fs.dir和historyserver.archive.fs.dir等,还指出historyserver是独立进程,且historyserver.archive.fs.refresh - interval时间间隔似乎不起作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

flink的HistoryServer主要是用来存储和查看任务的历史记录,具体信息可以看官网:

https://ci.apache.org/projects/flink/flink-docs-release-1.8/monitoring/historyserver.html

下面主要分析一下参数配置:

conf/flink-conf.yaml文件
 

jobmanager.archive.fs.dir: hdfs://192.16.44.28:8020/flink/v1.0copy/completed-jobs/

# The address under which the web-based HistoryServer listens.
historyserver.web.address: 0.0.0.0

# The port under which the web-based HistoryServer listens.
historyserver.web.port: 8088

# Comma separated list of directories to monitor for completed jobs.
historyserver.archive.fs.dir: hdfs://192.16.44.28:8020/flink/v1.0copy/completed-jobs/,hdfs://192.16.44.28:8020/flink/v1.0copy/h-completed-jobs/,hdfs://192.16.44.28:8020/flink/completed-jobs/

# Interval in milliseconds for refreshing the monitored directories.
historyserver.archive.fs.refresh-interval: 1000
#

 

jobmanager.archive.fs.dir 目录flink会自动创建,并将已完成的任务上传到此目录

historyserver.archive.fs.dir目录必须已存在,可以是多个,以逗号分隔,这些目录里的任务是最终在UI上显示出来的,其它集群的flink任务目录也可以写在这里。

historyserver是相对flink独立的进程,只是用到了flink的配置文件,flink集群未启动,也可以使用historyserver.

另外,historyserver.archive.fs.refresh-interval这个时间间隔貌似不起作用,任务显示花费的时间很长。

 

### 安装和配置 Flink 分布式集群 #### 准备工作 在安装之前,需确认已准备好以下环境: - Java JDK (建议版本 8 或更高)[^1]。 - Hadoop 集群(可选,如果计划使用 HDFS)[^2]。 - Zookeeper 集群(用于高可用性场景下协调服务)[^3]。 #### 下载并解压 Flink 从官方站点下载适合的 Flink 版本,并将其解压缩到目标目录。例如: ```bash wget https://archive.apache.org/dist/flink/flink-1.17.0/flink-1.17.0-bin-scala_2.12.tgz tar -xzvf flink-1.17.0-bin-scala_2.12.tgz -C /opt/installs/ ``` 完成之后,可以同步文件至其他节点以实现一致性部署: ```bash xsync.sh /opt/installs/flink ``` 此操作会将 Flink 的二进制包复制到所有指定节点上。 #### 修改全局变量 编辑 `/etc/profile` 文件,在其中添加 Flink 和相关工具路径以便于后续调用: ```bash export FLINK_HOME=/opt/installs/flink export PATH=$PATH:$FLINK_HOME/bin source /etc/profile ``` 同样可以通过脚本来分发这些更改给整个集群中的每台机器: ```bash xsync.sh /etc/profile ``` #### 启动顺序 按照如下流程依次启动所需的服务组件: 1. **Zookeeper** 如果采用外部管理方式,则需要手动开启各个节点上的 zookeeper 实例;而在实验阶段可以直接利用内置脚本简化过程: ```bash ./bin/start-zookeeper-quorum.sh ``` 2. **HDFS** 对应大数据存储层部分,执行下面指令来激活 NameNode 及 DataNodes 组成的整体框架结构: ```bash start-dfs.sh ``` 3. **Flink Cluster** 接着便是正式进入主题环节——触发 JobManager 和 TaskManagers 起效动作序列: ```bash $FLINK_HOME/bin/start-cluster.sh ``` 4. **History Server** (视需求而定) 若希望保留已完成作业的历史记录供查询分析之用的话,还需额外单独唤起 HistoryServer 运行实例: ```bash historyserver.sh start ``` 以上步骤均基于假设前提条件成立的情况下给出的标准指引方案。 #### 校验运行状况 最后一步就是验证整体架构是否正常运作良好。通过访问 Web UI 页面或者借助 CLI 工具发出请求获取当前在线资源概况详情等信息来进行最终判定依据标准: ```bash $FLINK_HOME/bin/flink list ``` --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值