数据追光者-优快云博客

原创关于将Dinky使用Jenkins部署的相关问题解决

Dinky容器化部署问题及解决方案：1）目录访问问题需挂载配置文件目录；2）YarnClusterDescriptor获取jar路径异常，容器中路径格式为"nested:/app.jar/!BOOT-INF/lib/flink-yarn.jar"。提供两种解决方案：①在flink-conf.yaml配置yarn.flink-dist-jar绝对路径；②通过正则解析容器路径并拼接全局变量根目录。两种方法均可解决"YarnDeploymentException: The Flink

2025-12-13 16:52:01 299

原创关于Doris集群FE单点问题的解决方案

在高可用的架构中，通常会有多个 FE 节点，以避免单点故障。当配置 SeaTunnel 的 Doris Sink 时，你可以指定多个 FE 节点，这样即使其中一个节点不可用，SeaTunnel 仍然可以尝试将数据写入其他可用的 FE 节点，从而实现一定程度的高可用性。Doris集群目前有3个FE节点组成高可用架构，1个Master，2个Follower。虽然3个节点之间互备，但是应用程序每次只能与其中一个FE节点建立连接，且无法感知到当前连接节点是否健康，当其出现宕机，应用侧无法实现自动切换。

2025-11-20 08:42:43 360

原创 flink mongo cdc connector连接数占满导致的任务失败

摘要：本文分析了Dinky平台上Flink任务频繁占用MongoDB连接数的问题。主要原因是Flink任务持续重启导致连接无法复用、连接参数配置不合理（如超时时间过短）以及连接池设置不当。通过实验测试发现：每个MongoCDC任务会维持2个连接，连接数随任务重启而波动但不会无限增长；未分片集合只能由单个Subtask监听导致其他并行任务闲置。解决方案包括：1)优化Mongo连接参数（设置合理超时和连接池大小）；2)调整Flink重启策略为指数延迟模式；3)配置YARN任务重试策略。测试表明优化后连接数保持稳

2025-11-20 08:37:51 471

原创 Doris集群部署手册

摘要：Doris集群部署主要包括5个步骤：1）检查硬件环境（CPU支持AVX2指令集、内存与存储配置）和软件环境（禁用swap分区、调整系统参数）；2）规划集群布局，包括FE节点（主从架构）和BE节点的数量及资源分配；3）配置部署参数，如元数据存储路径、网络绑定和内存设置；4）启动并验证FE/BE节点，通过SQL命令检查状态；5）创建测试表验证集群功能。关键注意事项包括：生产环境建议3个BE节点确保高可用，FE元数据与BE数据分开存储，以及配置冷热数据分级存储等优化措施。

2025-11-20 08:26:11 693

原创 Doris SQL转换

Doris提供多数据库SQL语法兼容支持，可无缝执行Presto、Trino、Hive等方言的SQL查询。通过sql_converter服务（需设置sql_dialect参数）实现语法自动转换，支持包括日期处理、JSON解析等复杂操作。用户可下载转换工具包快速部署，或通过可视化界面批量转换SQL语句（功能待实现）。该特性显著降低了从其他数据库迁移到Doris的学习成本，使历史SQL脚本得以复用。典型查询示例展示了跨方言的函数调用能力，如array_distinct、date_trunc等函数的兼容执行。

2025-11-20 08:24:47 358

原创 Doris Manager安装部署

摘要：本文介绍了Doris Manager 24.0.1的安装配置流程。主要内容包括下载地址获取、安装包目录结构说明（包含webserver、bin、conf等组件）、数据库创建和用户授权SQL语句、修改webserver配置文件（配置MySQL连接信息）、服务器启动命令以及Web访问地址。配置重点涉及数据库类型、主机、端口、用户名密码等参数设置，最后提供了通过浏览器访问Doris Manager Web服务的URL格式。

2025-11-20 08:22:51 455

原创 sqlite3.50.4安装

本文介绍了SQLite数据库升级及Python重新编译的完整流程。首先从官网下载SQLite源码包并解压，通过configure和make命令完成安装。随后配置系统环境变量和库路径，创建软链接并更新动态库。为在Python中使用新版SQLite，需重新编译Python，设置LD_RUN_PATH、LDFLAGS和CPPFLAGS参数指向新SQLite路径。最后通过import sqlite3验证版本号，确保Python和Shell环境均显示3.50.4版本，完成整个升级过程。

2025-11-19 09:13:47 641

原创 superset安装过程

Superset 4.1.3安装指南摘要本文详细记录了在192.168.12.237服务器上安装Superset 4.1.3的过程。主要内容包括：1)环境准备要求Python 3.9、SQLite等特定版本；2)建议使用虚拟环境避免冲突；3)配置文件中设置了18088端口和MySQL数据库连接；4)列举了9个常见安装问题的解决方案；5)提供了启动脚本实现服务管理功能；6)调试建议和日志查看方法。安装完成后可通过http://192.168.12.237:18088访问，默认账号为admin/admin。文

2025-11-19 09:12:51 664

原创 SeaTunnel隔离集群安装

本文介绍了SeaTunnel集群环境的配置与部署流程。首先创建环境变量配置文件并同步到各节点，然后配置JVM参数（堆内存20GB、G1GC）、SeaTunnel引擎参数（历史作业过期时间、Slot数量等）及网络服务配置。部署包含2个Master节点和5个Worker节点，分别启动服务并配置日志目录。客户端配置与服务器保持一致，支持任务提交（支持时间范围参数）、状态查询、暂停恢复等操作。最后给出了具体的任务提交命令示例，展示了如何通过集群模式执行数据同步任务。整个配置着重于高可用集群部署和任务管理功能实现。

2025-11-19 09:10:57 793

原创 seatunnel-web安装

摘要：本文介绍了Seatunnel-web的安装配置流程，指出该社区不活跃且存在较多问题，仅建议用于学习参考。主要步骤包括：下载解压安装包、配置数据库连接信息、运行初始化脚本、修改应用配置文件、安装数据源jar包等。特别强调需在home目录下启动服务，否则会导致网页无法访问。文中多次提到操作过程中可能出现的报错问题，提示用户注意各环节配置细节。

2025-11-19 09:08:47 438

原创 Miniconda安装过程

本文介绍了Miniconda3在Linux系统上的安装与初始化步骤：首先通过wget下载安装包并执行安装程序到指定目录/data/apps/miniconda3；安装完成后需重新打开终端或运行source命令激活环境；最后通过conda init --all命令初始化所有可用的shell配置，该命令会修改.bash_profile等配置文件。文章还建议使用--dry-run参数先测试配置修改情况，并指出未初始化可能导致"conda not found"错误。整个流程涵盖了从安装到环境配置

2025-11-19 09:07:14 263

原创 flink on hive安装信息

本文详细记录了Hive 3.1.0的安装配置过程及遇到的问题解决方案。主要内容包括：1）解压安装包并配置环境变量；2）解决jar包冲突(如log4j、guava)；3）配置Metastore到MySQL数据库；4）修改hive-site.xml配置文件；5）解决Java版本兼容性问题（替换Java 11为Java 8）；6）处理路径变量问题（替换${system:java.io.tmpdir}）；7）初始化数据库schema；8）配置Flink与Hive集成所需jar包。最后完成Flink on Hive的

2025-11-19 09:05:53 362

原创实时开发管理平台调研

致力于简化Flink任务开发，提升Flink任务运维能力，降低Flink入门成本，提供一站式的Flink任务开发、运维、监控、报警、调度、数据管理等功能。Dinky 提供轻量级的实时计算 IDE 开发模式，支持代码提示补全、查询调试、逻辑检查、计划查看、血缘分析、全局变量、环境复用、整库同步、版本控制、元数据查询等能力，致力于解决作业数量大、开发成本高、调试门槛高等问题，让作业开发更简单高效。基于网络的笔记本，支持数据驱动的交互式数据分析，以及使用SQL、Scala、Python、R等多种语言的协作文档。

2025-11-19 09:04:00 1001

原创 Dinky安装手册(flink1.18-1.1.0)

flink-shaded-hadoop-3-uber-3.1.1.7.2.8.0-224-9.0_del_javax_servlet.jar（已经删除了javax.servlet目录） =》 /data/apps/dinky-release-1.18-1.1.0-rc4/extends。在datagrip中执行以下文件：/data/dingky/sql/dinky-mysql.sql。flink原生只提供实时计算功能，webui可以提供简单的监控和参数展示。下载tgz包到/data/apps/下并解压。

2025-11-19 09:01:29 402

原创 flink-standalone安装信息

本文介绍了Flink集群的安装配置步骤：在192.168.12.126-128三台机器上部署Flink，其中126作为master节点，其余作为worker节点。详细说明了Flink Web UI访问地址(http://192.168.12.126:8083)，并重点介绍了SQL Gateway的启动方式，需指定endpoint地址和端口参数。最后给出了通过SQL Client连接Gateway的指令，使用flink01:8084作为端点地址。配置过程涵盖了集群部署、服务启动和客户端连接等关键环节。

2025-11-19 09:00:45 206

原创 flink on yarn安装

摘要：本文介绍了Hadoop客户端和Flink on YARN的安装配置流程。首先通过scp命令从Hadoop集群复制安装包，解压并创建软链接，配置环境变量。然后在Hadoop配置文件中设置类路径。Flink安装方面，解压安装包并创建软链接，配置环境变量。由于Flink on YARN依赖YARN资源管理，只需安装客户端即可，支持session、per-job和application三种任务提交模式。配置完成后即可在Dinky或StreamPark上开发和提交Flink任务。

2025-11-19 08:59:13 109

原创 flink-streaming-platform-web安装手册

为了降低实时开发任务的复杂度，降低实时编码的门槛，特安装flink-sql管理平台（flink-streaming-platform-web）。gitee上提供了flink1.16.2比较全的文档，其他版本需要自己根据源码做修改，自己编译打jar包。将其改为flink-streaming-platform-web_1.20.0.tar.gz。随着实时需求的提出以及公司对于实时性的要求，需要在数据组安装基于flink的实时集群。该组建为国内开源实现，目前是由程慧培个人维护。这里会报错，需要做相应的一些修改。

2025-11-19 08:55:41 297

原创 hive-catalog安装手册

本文介绍了Hive Metastore的配置过程。首先创建MySQL数据库metastore并授权给hive用户，然后在hive-site.xml中配置JDBC连接参数，包括端口、URL、驱动名称、用户名密码等关键信息。接着将必要的JDBC驱动包放入lib目录，最后使用schematool初始化元数据库并启动metastore服务。整个过程涵盖了Hive Metastore从数据库创建到服务启动的关键配置步骤。

2025-11-19 08:53:23 213

原创 streampark安装指引

本文介绍了Apache StreamPark的安装配置流程：1）解压安装包到指定目录并设置环境变量；2）初始化MySQL数据库；3）安装配置Java运行环境；4）修改config.yaml配置文件，设置数据库连接、工作空间路径及Hadoop相关信息；5）配置Hadoop和Flink环境变量；6）最终启动StreamPark服务。整个流程涉及环境变量设置、数据库初始化、核心配置文件修改等关键步骤，为StreamPark的正常运行提供了基础环境配置。

2025-11-19 08:52:47 217

原创 DolphinScheduler工作流卡死问题

摘要：小海豚工作流常出现运行状态与任务实例不一致的卡死问题，主要表现为工作流长期运行却未完成。经分析，主要是MySQL数据库操作超时导致状态不同步。解决方案包括：检查MySQL表操作是否存在超时/锁表；人工调整前后端不一致状态；终止问题工作流并重启调度；排查MySQL资源问题和锁表现象，通过kill长时间连接解决。该方案能有效解决大部分工作流卡死问题。

2025-11-19 08:49:09 311

原创 Doris用户资源管控

摘要：为解决Doris集群资源无隔离导致临时查询影响生产任务的问题，采用Workload Group机制实现软性资源管控。方案保留默认normal组（内存限制20%）供临时查询使用，新建prod_group组（CPU权重4096，内存限制80%）供生产任务专用。通过用户绑定和授权机制，确保生产用户（如admin）默认使用prod_group组，实现生产任务优先获取资源的目标。该方案避免了物理隔离的高成本问题，通过软限制在资源紧张时优先保障生产任务执行。

2025-11-19 08:45:57 240

原创 anaconda初识

本文介绍了Anaconda环境的配置与使用，主要包括：1）安装Anaconda并配置系统环境变量；2）创建和管理虚拟环境；3）配置DataGrip连接Anaconda内核；4）在DataGrip中使用Python控制台；5）与JupyterLab的集成使用；6）为Jupyter添加其他环境；7）修改JupyterLab默认工作路径。这些步骤帮助用户搭建完整的Python开发环境，实现代码交互执行和数据分析功能。

2025-11-19 08:39:06 494

原创 systemd管理执行程序

本文介绍了如何配置和管理systemd服务单元文件。主要内容包括：1）创建两种类型的服务单元文件（一次性任务和常驻后台任务），详细说明了关键配置参数如Type、ExecStart、Restart等；2）设置脚本权限和重新加载systemd配置的步骤；3）服务启停管理命令（enable/start/status/stop/restart）；4）日志查看方法；5）服务配置参数说明，并提供了ZooKeeper服务配置实例。文章系统性地讲解了从创建服务单元文件到日常管理的完整流程。

2025-11-19 08:36:35 839

原创 python3.9.20安装手册

本文介绍了在CentOS系统中安装Python 3.9.20的详细步骤。首先下载并解压Python安装包，通过配置编译选项、编译源码、使用altinstall安装来避免覆盖系统默认Python版本。提供了验证安装和创建软链接的方法，并详细说明了三种安装pip的方式（推荐使用get-pip.py脚本安装）。文章还包含升级OpenSSL后重新编译Python的步骤，以及验证SSL模块是否正常工作的命令。最后提示了使用python3 -m pip而非pip3来安装组件，以避免版本冲突问题。

2025-11-19 08:35:56 628

原创 openssl1.1.1w升级手册

摘要：为在大数据平台测试环境安装Python环境，系统因openssl版本不兼容导致requests组件安装失败。通过升级openssl并重新编译Python解决：1）安装openssl-devel开发包；2）查找并配置openssl路径；3）明确指定openssl路径重新编译Python；4）更新系统库路径和软链接；5）验证openssl安装和Python的SSL模块功能。最终实现Python 3.9与新版openssl的兼容运行。（148字）

2025-11-19 08:35:00 313

原创 DataGrip 禁用自动同步

摘要 IntelliJ IDEA在数据库结构变更时会自动触发表结构同步，导致多个线程持续运行并可能耗尽系统资源。对于大型数据库，该问题尤为严重。解决方案是在数据库连接的Options面板中禁用Introspection的Autosync选项。相关Bug报告显示这是已知问题，关闭自动同步可有效解决性能问题。

2025-11-19 08:32:51 209

原创 yarn任务重启造成dinky1.1.0的flink任务uknown的问题

摘要：本文针对Dinky监控Flink任务时因YARN集群重启导致状态同步失效的问题，提出自动化解决方案。当YARN集群节点故障恢复时，可能出现JobID、AttemptID或Flink JobID变更，导致Dinky无法获取任务状态。通过开发Python脚本yarn_monitor_flink_change.py，自动检测YARN和Flink任务状态差异，更新Dinky中的JobManager地址和Flink JobID。该脚本定期同步YARN与Dinky的状态信息，解决了人工维护效率低、告警失效的问题

2025-11-12 11:28:40 271

原创 Dinky1.2.4本地开发环境部署参考

本手册详细介绍了Dinky大数据平台二次开发环境的部署流程。内容包括：1)环境准备（JDK8、Maven3.8+、Node.js18+等）；2)代码克隆与导入；3)前端部署（依赖安装与启动）；4)后端部署（Profile配置、数据库初始化、依赖管理）；5)常见问题处理（端口变更、依赖冲突等）。部署完成后可进行本地功能开发，但需注意Windows环境对YARN集群支持的局限性。手册为开发人员提供了完整的开发环境搭建指南，确保实时开发模块的质量和效率。

2025-11-12 11:23:44 875

原创 Windows环境Hadoop客户端安装参考

摘要本文介绍了在Windows系统下搭建Hadoop开发环境的步骤。首先需要安装JDK 1.8，并配置环境变量，然后从测试环境获取Hadoop 3.4.1客户端安装包。由于官方不支持Windows系统，需从GitHub下载winutils工具（包括winutils.exe和hadoop.dll）。具体操作包括：修改Hadoop配置文件中的路径为Windows路径，用winutils的bin目录替换原bin目录，将hadoop.dll复制到系统目录。最后通过hdfs和yarn命令验证安装是否成功。此环境支持

2025-11-12 11:11:03 414

原创 Windows环境下的Dinky1.2.4本地源码部署

摘要：本文详细介绍了在Windows系统下部署Dinky的完整解决方案。针对Dinky官网缺乏Windows部署指南的问题，通过源码分析提出了系统适配方案。部署流程包括：修改application.yml端口配置、调整多个pom.xml依赖（解决包冲突与版本问题）、删除flink-yarn中冲突类文件、配置Windows环境变量（Hadoop、Flink等客户端路径）。重点解决了YARN模式下因路径分隔符差异导致的ClassNotFoundException问题。同时提供了Dinky集群配置规范，包括Fl

2025-11-12 11:06:51 931

f4vinny的专栏