Flink-Streaming-Platform-Web 批处理任务配置详解

Flink-Streaming-Platform-Web 批处理任务配置详解

【免费下载链接】flink-streaming-platform-web 基于flink的实时流计算web平台 【免费下载链接】flink-streaming-platform-web 项目地址: https://gitcode.com/gh_mirrors/fl/flink-streaming-platform-web

一、平台概述

Flink-Streaming-Platform-Web 是一个基于 Flink 的流批一体任务管理平台,提供了友好的 Web 界面来配置和管理 Flink 批处理任务。本文将详细介绍如何在该平台上配置批处理任务,帮助用户快速上手使用。

二、新建批处理任务配置

1. 基础信息配置

任务名称(必填项):

  • 命名规范:仅支持数字、字母和下划线组合
  • 长度限制:不超过50个字符
  • 建议采用有意义的命名,如user_behavior_analysis

2. 运行模式选择

平台支持三种运行模式,用户需根据实际环境选择:

  1. YARN_PER 模式(YARN 独立模式)

    • 特点:每个任务独立运行在YARN集群上
    • 适用场景:生产环境,需要资源隔离的场景
  2. STANDALONE 模式(独立集群模式)

    • 特点:使用预先部署的Flink集群执行任务
    • 适用场景:测试环境或小规模生产环境
  3. LOCAL 模式(本地模式)

    • 特点:在本地单机运行
    • 注意:需提前在本地启动Flink服务(执行./bin/start-cluster.sh
    • 适用场景:开发调试阶段

3. Flink运行参数配置

YARN_PER 模式参数
-yqu flink -yjm 1024m -ytm 2048m -p 1 -ys 1

参数说明:

  • -yqu:指定YARN队列(必填)
  • -yjm:JobManager堆内存大小(如1024m)
  • -ytm:TaskManager堆内存大小(如2048m)
  • -p:任务并行度
  • -ys:每个TaskManager的slot数量
  • -yD:可添加其他Flink配置参数
STANDALONE 模式参数

常用参数:

  • -d:以分离模式运行作业
  • -p:覆盖配置中的默认并行度
  • -s:从指定保存点恢复作业

4. 依赖库配置

支持两种方式添加依赖:

方式一:直接填写JAR包URL

http://example.com/flink-connector-jdbc_2.11-1.12.0.jar
http://example.com/mysql-connector-java-5.1.25.jar

注意:多个URL需换行分隔

方式二:使用平台的三方JAR管理功能

flink-connector-jdbc_2.11-1.12.0.jar
mysql-connector-java-5.1.25.jar

UDF使用示例:

CREATE FUNCTION jsonHasKey AS 'com.xx.udf.JsonHasKeyUDF';

5. SQL语句编写

示例:使用Hive Catalog执行批处理任务

-- 创建Hive Catalog
CREATE CATALOG testmyhive WITH (
    'type' = 'hive',
    'default-database' = 'test',
    'hive-conf-dir' = '/path/to/hive/conf'
);

-- 使用指定Catalog
USE CATALOG testmyhive;

-- 执行批处理插入
INSERT INTO test.test VALUES(4, 'n2');

三、系统全局配置

在平台使用前,需配置以下关键参数:

  1. 应用安装目录(必填)

    • 示例:/root/flink-streaming-platform-web/
  2. Flink客户端目录(必填)

    • 示例:/usr/local/flink-1.12.0/
  3. YARN RM HTTP地址(必填)

    • 示例:http://hadoop003:8088/
  4. Flink REST HTTP地址(LOCAL模式使用)

    • 示例:http://localhost:8081
  5. Flink REST HA HTTP地址(STANDALONE HA模式)

    • 多个地址用分号分隔
    • 示例:http://node1:8081;http://node2:8081

四、最佳实践建议

  1. 资源分配

    • 生产环境建议使用YARN_PER模式
    • 根据数据量合理设置并行度和内存参数
  2. 依赖管理

    • 推荐使用平台的三方JAR管理功能
    • 确保所有依赖JAR版本兼容
  3. SQL开发

    • 复杂SQL建议先在SQL客户端测试
    • 充分利用Catalog功能管理元数据
  4. 监控与调优

    • 任务提交后关注YARN资源使用情况
    • 根据执行情况调整并行度和内存配置

通过以上配置,用户可以轻松在Flink-Streaming-Platform-Web平台上创建和管理批处理任务,充分发挥Flink批流一体的处理能力。

【免费下载链接】flink-streaming-platform-web 基于flink的实时流计算web平台 【免费下载链接】flink-streaming-platform-web 项目地址: https://gitcode.com/gh_mirrors/fl/flink-streaming-platform-web

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值