streamlit 实现 flink SQL运行界面

实现效果

在这里插入图片描述

streamlit

flink-playground.py 文件如下:

import streamlit as st
import io
import contextlib
import sys
import os
import uuid
import subprocess
from jinja2 import Template

st.set_page_config(layout="wide")

# 设置页面标题
st.title("Flink SQL")

# 初始化会话状态
if 'user_id' not in st.session_state:
    st.session_state.user_id = str(uuid.uuid4())


# 创建一个输入框用于配置 JobManager 地址
st.session_state.jobmanager_address = st.text_input("JobManager 地址", value="10.50.108.7:48085")
# 创建一个文本框用于输入配置项
default_config = """
execution.checkpointing.interval=10s
execution.runtime-mode=batch
sql-client.execution.result-mode=table
sql-client.execution.max-table-result.rows=10000
pipeline.auto-watermark-interval=200
pipeline.max-parallelism=10
table.exec.state.ttl=1000
restart-strategy.type=fixed-delay
table.optimizer.join-reorder-enabled=true
table.exec.spill-compression.enabled=true
table.exec.spill-compression.block-size=128kb
""".strip()
st.session_state.config_input = st.text_area("输入配置项 (格式: key=value)", height=300, value=default_config)

# 创建一个大的文本框用于输入代码
st.session_state.sql_input = st.text_area("输入你的 Flink SQL 代码", height=500)

# 创建一个按钮
if st.button("执行 Flink Job"):
    try:
        # 读取模板文件
        with open("/work/template/pyflink-job.py.template", "r") as template_file:
            template_content = template_file.read()
        
        # 解析配置项
        config_dict = {}
        for line in st.session_state.config_input.splitlines():
            if '=' in line:
                key, value = line.split('=', 1)
                config_dict[key.strip()] = value.strip()
        
        # 使用 jinja2 模板引擎渲染模板
        template = Template(template_content)
        job_content = template.render(sqls=st.session_state.sql_input, config_items=config_dict)
        st.text("完整pyflink任务代码")
        st.code(job_content, language='python')
        
        # 将替换后的内容保存到临时文件
        file_name = f"flink_job_{st.session_state.user_id}.py"
        with open(file_name, "w") as job_file:
            job_file.write(job_content)
        
        # 使用 subprocess 执行 flink run 命令,并传递 JobManager 地址
        command = f"flink run -m {st.session_state.jobmanager_address} -py {file_name}"
        result = subprocess.run(command, shell=True, capture_output=True, text=True)
        
        # 获取捕获的输出
        captured_output = result.stdout
        
        # 显示输出结果
        st.text_area("执行结果", value=captured_output, height=200)
    except Exception as e:
        # 如果代码执行出错,打印错误信息
        st.error(f"代码执行出错: {e}")
    finally:
        # 删除临时文件
        if file_name and os.path.exists(file_name):
            os.remove(file_name)

运行:

nohup streamlit run /work/flink-playground.py --server.port 9999 2>&1  > .streamlit.log &

模板文件

模板文件根据用户输入动态更新任务配置和SQL

import re
from pyflink.table import EnvironmentSettings, TableEnvironment

def remove_comments(sql):
    # 使用正则表达式删除单行注释和多行注释
    sql = re.sub(r'--.*$', '', sql, flags=re.MULTILINE)  # 删除单行注释
    sql = re.sub(r'/\*.*?\*/', '', sql, flags=re.DOTALL)  # 删除多行注释
    return sql

def execute_sql_file(table_env, sql_statements):
    sql_statements = sql_statements.split(';')
    for sql in sql_statements:
        # 删除注释
        sql = remove_comments(sql)
        sql = sql.strip()
        if sql:
            print(f"Executing SQL: {sql}")
            result = table_env.execute_sql(sql)
            # if result:
            #     result.print()

def main():
    # 创建 TableEnvironment
    env_settings = EnvironmentSettings.new_instance().in_batch_mode().build()
    table_env = TableEnvironment.create(env_settings)
    table_config = table_env.get_config()
    {% for key, value in config_items.items() %}
    table_config.get_configuration().set_string("{{ key }}", "{{ value }}")
    {% endfor %}
    sqls = """
    {{ sqls }}
    """

    # 读取 SQL 文件并执行
    execute_sql_file(table_env, sqls)

if __name__ == "__main__":
    main()
### Flink SQL运行方式及执行流程 Flink SQL 是 Apache Flink 提供的一种用于处理流式和批处理数据的 SQL 接口。它允许用户通过标准 SQL 语法来查询和操作数据,同时利用 Flink 的分布式计算能力进行高效的数据处理。 #### 1. Flink SQL运行方式 Flink SQL运行方式可以分为两种主要场景:流式处理和批处理。这两种模式分别对应于 Flink 的流处理引擎(Streaming)和批处理引擎(Batch)。 - **流式处理**:适用于实时数据流的处理,例如从 Kafka、Pulsar 等消息队列中读取数据并进行实时分析[^5]。 - **批处理**:适用于静态数据集的处理,例如从文件系统(如 HDFS 或本地文件系统)中读取数据并进行批量计算[^5]。 Flink SQL运行基于 Flink 的 Table API 和底层的执行引擎。用户可以通过 `StreamTableEnvironment` 或 `BatchTableEnvironment` 来定义表和执行 SQL 查询[^2]。 #### 2. Flink SQL 的执行流程 Flink SQL 的执行流程可以概括为以下几个阶段: ##### (1) SQL 解析 SQL 查询首先会被解析为抽象语法树(AST),这是通过 Calcite 解析器完成的。解析器会将 SQL 字符串转换为 SqlNode 对象[^4]。 ```java SqlNode parsed = parser.parse(statement); ``` ##### (2) SQL 校验与逻辑计划生成 在解析完成后,SQL 语句会经过校验,并被转换为逻辑计划(Logical Plan)。这一阶段的核心是将 SqlNode 转换为 RelNode(关系代数节点),并通过 FlinkPlannerImpl 进行优化[^4]。 ```java Operation operation = SqlToOperationConverter.convert(planner, catalogManager, parsed); ``` ##### (3) 逻辑计划优化 生成的逻辑计划会被进一步优化,生成 Optimized Logical Plan。这一阶段包括规则应用和成本评估,以确保生成的计划是最优的[^3]。 ##### (4) 物理执行计划生成 优化后的逻辑计划会被转换为物理执行计划(Physical Execution Plan)。这一阶段会考虑 Flink 的分布式特性,将逻辑操作映射到具体的物理操作上[^3]。 ##### (5) 执行与结果返回 最终的物理执行计划会被提交到 Flink运行时环境进行执行。对于查询语句,结果会以流或批的形式返回;对于 DDL 或 DML 语句,操作会被直接执行。 #### 3. 示例代码 以下是一个完整的 Flink SQL 使用示例,展示了如何从 CSV 文件中读取数据并执行查询。 ```java // 创建执行环境 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env); // 定义表 tableEnv.executeSql(""" CREATE TABLE well_casting_alarm ( _id VARCHAR, comCode VARCHAR, wellCode VARCHAR, uuid VARCHAR, type INT, alarmType INT, alarmGrade INT, zp INT, startAlarmTime TIME, startAlarmValue DECIMAL, threshold INT, warnStatus INT, isDeal INT, createTime TIME, _class VARCHAR ) WITH ( 'connector' = 'filesystem', 'path' = '/wfg/data/sjzz.wellCastingAlarm0606.csv', 'format' = 'csv' ) """); // 执行查询 Table result = tableEnv.sqlQuery("SELECT _id, comCode, alarmType FROM well_casting_alarm WHERE alarmGrade > 2"); result.printSchema(); ``` ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

颹蕭蕭

白嫖?

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值