Flink-Streaming-Platform-Web 批处理任务配置详解
一、平台概述
Flink-Streaming-Platform-Web 是一个基于 Flink 的流批一体任务管理平台,提供了友好的 Web 界面来配置和管理 Flink 批处理任务。本文将详细介绍如何在该平台上配置批处理任务,帮助用户快速上手使用。
二、新建批处理任务配置
1. 基础信息配置
任务名称(必填项):
- 命名规范:仅支持数字、字母和下划线组合
- 长度限制:不超过50个字符
- 建议采用有意义的命名,如
user_behavior_analysis
2. 运行模式选择
平台支持三种运行模式,用户需根据实际环境选择:
-
YARN_PER 模式(YARN 独立模式)
- 特点:每个任务独立运行在YARN集群上
- 适用场景:生产环境,需要资源隔离的场景
-
STANDALONE 模式(独立集群模式)
- 特点:使用预先部署的Flink集群执行任务
- 适用场景:测试环境或小规模生产环境
-
LOCAL 模式(本地模式)
- 特点:在本地单机运行
- 注意:需提前在本地启动Flink服务(执行
./bin/start-cluster.sh) - 适用场景:开发调试阶段
3. Flink运行参数配置
YARN_PER 模式参数
-yqu flink -yjm 1024m -ytm 2048m -p 1 -ys 1
参数说明:
-yqu:指定YARN队列(必填)-yjm:JobManager堆内存大小(如1024m)-ytm:TaskManager堆内存大小(如2048m)-p:任务并行度-ys:每个TaskManager的slot数量-yD:可添加其他Flink配置参数
STANDALONE 模式参数
常用参数:
-d:以分离模式运行作业-p:覆盖配置中的默认并行度-s:从指定保存点恢复作业
4. 依赖库配置
支持两种方式添加依赖:
方式一:直接填写JAR包URL
http://example.com/flink-connector-jdbc_2.11-1.12.0.jar
http://example.com/mysql-connector-java-5.1.25.jar
注意:多个URL需换行分隔
方式二:使用平台的三方JAR管理功能
flink-connector-jdbc_2.11-1.12.0.jar
mysql-connector-java-5.1.25.jar
UDF使用示例:
CREATE FUNCTION jsonHasKey AS 'com.xx.udf.JsonHasKeyUDF';
5. SQL语句编写
示例:使用Hive Catalog执行批处理任务
-- 创建Hive Catalog
CREATE CATALOG testmyhive WITH (
'type' = 'hive',
'default-database' = 'test',
'hive-conf-dir' = '/path/to/hive/conf'
);
-- 使用指定Catalog
USE CATALOG testmyhive;
-- 执行批处理插入
INSERT INTO test.test VALUES(4, 'n2');
三、系统全局配置
在平台使用前,需配置以下关键参数:
-
应用安装目录(必填)
- 示例:
/root/flink-streaming-platform-web/
- 示例:
-
Flink客户端目录(必填)
- 示例:
/usr/local/flink-1.12.0/
- 示例:
-
YARN RM HTTP地址(必填)
- 示例:
http://hadoop003:8088/
- 示例:
-
Flink REST HTTP地址(LOCAL模式使用)
- 示例:
http://localhost:8081
- 示例:
-
Flink REST HA HTTP地址(STANDALONE HA模式)
- 多个地址用分号分隔
- 示例:
http://node1:8081;http://node2:8081
四、最佳实践建议
-
资源分配:
- 生产环境建议使用YARN_PER模式
- 根据数据量合理设置并行度和内存参数
-
依赖管理:
- 推荐使用平台的三方JAR管理功能
- 确保所有依赖JAR版本兼容
-
SQL开发:
- 复杂SQL建议先在SQL客户端测试
- 充分利用Catalog功能管理元数据
-
监控与调优:
- 任务提交后关注YARN资源使用情况
- 根据执行情况调整并行度和内存配置
通过以上配置,用户可以轻松在Flink-Streaming-Platform-Web平台上创建和管理批处理任务,充分发挥Flink批流一体的处理能力。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



