用DolphinScheduler轻松实现Flume数据采集任务自动化！

最新推荐文章于 2025-08-14 18:11:31 发布

原创最新推荐文章于 2025-08-14 18:11:31 发布 · 829 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#大数据

file

转载自天地风雷水火山泽

目的

因为我们的数仓数据源是Kafka，离线数仓需要用Flume采集Kafka中的数据到HDFS中。在实际项目中，我们不可能一直在Xshell中启动Flume任务，一是因为项目的Flume任务很多，二是一旦Xshell页面关闭Flume任务就会停止，这样非常不方便，因此必须在后台启动Flume任务。所以经过测试后，我发现海豚调度器也可以启动Flume任务。 file

海豚调度Flume任务配置

（一）Flume在Linux中的路径 file

（二）Flume任务文件在Linux中的位置以及任务文件名 file

（三）在海豚中配置运行脚本 file

#!/bin/bash
source /etc/profile

/usr/local/hurys/dc_env/flume/flume190/bin/flume-ng agent -n a1 -f /usr/local/hurys/dc_env/flume/flume190/conf/statistics.properties

注意：/usr/local/hurys/dc_env/flume/flume190/为Flume在Linux中的安装，根据自己安装路径进行调整（四）海豚任务配置好后就可以启动海豚任务 file

（五）在HDFS对应文件夹中验证是否采集到数据 file 可以看到，Flume采集Kafka数据成功写入到HDFS中，成功实现用Apache DolphinScheduler执行Flume任务的目的！
原文链接： https://blog.youkuaiyun.com/tiantang2renjian/article/details/136399112

本文由白鲸开源科技提供发布支持！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

DolphinScheduler社区

关注关注

9
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

Dolphinscheduler集成Flink任务踩坑记录

快乐星球

11-26

6173

1、关于Flink打包 flink任务编写完成，在本地运行调试正常后，我打包提交到Dolphinscheduler平台进行测试。运行后没多久就报错： [taskAppId=TASK-10-108-214]:[138] - -> java.lang.NoClassDefFoundError: org/apache/flink/streaming/connectors/kafka/FlinkKafkaConsumer at com.bigdata.flink.FlinkKafka.main(Fli

用海豚调度器定时调度从Kafka到HDFS的kettle任务脚本

Apache DolphinScheduler开源社区

04-17

1656

工作流启动，成功！工作流一直在跑相应的任务实例也在跑！

2 条评论您还未登录，请先登录后发表或查看评论

Apache DolphinScheduler 与 AWS 的 EMR/Redshift 集成实践分享

Apache DolphinScheduler开源社区

07-05

1376

Redshift：用于数据仓库的解决方案。EMR：Hadoop生态圈的大数据处理组件。：任务调度工具。在大数据处理的下游，还包括BI（商业智能）、传统机器学习和最新的生成式AI，再往下是企业中的人、应用和设备。这张图展示了整个数据处理和分析的流程，使得数据处理过程更加直观和流畅。EMR与DolphinScheduler的实践Redshift与DolphinScheduler的实践在此之前，我们先对EMR做一个简要介绍。

Dolphin Scheduler-同步数据-学习笔记

最新发布

weixin_45235371的博客

08-14

890

数据源中心 => 创建数据源支持的数据源类型MySQLPostgreSQLSparkClickHouseOracleSQLServerDB2ProstoRedshiftAthena数据源基本属性：类型 / IP / 端口 / 用户名 / 密码 / 其它MySQL–创建用户&给用户授权-- 创建用户-- 授权用户-- privileges：用户的操作权限，如SELECT，INSERT，UPDATE等，如果要授予所的权限则使用ALL工作流节点–任务类型。

主流大数据调度工具DolphinScheduler之数据采集

wowulita123的博客

07-18

1560

主流大数据调度工具DolphinScheduler之数据采集

【DolphinScheduler+Kubernetes】：Python任务容器化调度新方案

[【DolphinScheduler+Kubernetes】：Python任务容器化调度新方案](https://d2908q01vomqb2.cloudfront.net/ca3512f4dfa95a03169c5a670a4c91a19b3077b4/2021/08/02/elamaras_prometheus_f2_feature.png) # 1. Dolphin...

在搭建大数据架构平台的过程中，从虚拟机模板机、分布式集群、OpenResty、Hadoop、Zookeeper、Flume、Hive、Zeppelin、DolphinScheduler、SuperSet可视化，每个环节的作用和意义是什么？实现了哪些功能？要注意哪些事项？

05-26

它的作用是提供任务调度和监控能力，实现了任务的自动化和管理的功能。在部署 DolphinScheduler 时，需要注意配置任务的类型和依赖关系，以及实现任务的监控和报警。 10. SuperSet SuperSet 是一个数据可视化和...

4.1搭建流程从虚拟机模板机--》分布式集群--》OpenResty--》Hadoop--》Zookeeper--》Flume--》Hive(MySql)--》--》Zeppelin-->DolphinScheduler--》SuperSet可视化。

05-29

9. 安装DolphinScheduler：在分布式集群中选择一台虚拟机，安装DolphinScheduler，配置好任务调度和执行，实现自动化任务的执行和管理。 10. 安装SuperSet：在分布式集群中选择一台虚拟机，安装SuperSet，配置好...

[离线数仓] 总结一、数据采集

weixin_44428807的博客

12-29

1131

服务名称子服务服务器hadoop111服务器hadoop112服务器hadoop113HDFSNameNode√DataNode√√SecondaryNameNode√YarnResourcemanager√NodeManager√√ZookeeperZookeeper Server√√√Flume（采集日志）Flume√KafkaKafka√√√Flume（Kafka日志）Flume√Flume（Kafka业务）Flume√Hive√MySQLMySQL√DataX√Spark√√√DolphinSche

[数仓]一、离线数仓（日志数据采集）

weixin_44428807的博客

07-06

1993

G:\Bigdata\Projects\电商数仓4.0数据仓库（ Data Warehouse ），是为企业制定决策，提供数据支持的。可以帮助企业，改进业务流程、提高产品质量等。和等就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中，需要和网站后台数据库进行增删改查交互，产生的数据就是业务数据业务数据通常存储在MySQL、Oracle等数据库中。：用户在使用产品过程中，通过埋点收集与客户端产品交互过程中产生的数据，并发往日志服务器进行保存。

新一代大数据任务调度 - Apache DolphinScheduler介绍&Roadmap

11-24

DolphinScheduler 介绍 DolphinScheduler 应用案例 1.3.3 新版本发布近期 Roadmap 参与开源

【Dolphinscheduler3.2.0+DATAX】同步数据(mysql,pgsql,oracle,sqlserver)到clickhouse

qq_41767351的博客

11-08

5697

【代码】【Dolphinscheduler3.2.0+DATAX】同步数据mysql到clickhouse。

springboot项目集成dolphinscheduler调度器实现datax数据同步任务

刘大猫

10-25

3825

Datax概述 1.概述 2.功能清单功能清单 CRUD增删改查、启动任务、停止任务 3.说明：本项目只支持mysql及hbase之间的数据同步代码模块配置文件 pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchem.

DolphinScheduler 调度 DataX 实现 MySQL To MySQL 增量数据同步实战

hack1015的专栏

03-03

5304

背景 MySQL库A 到 MySQL库B的增量数据同步需求 DolphinScheduler中配置DataX MySQL To MySQL工作流工作流定义工作流定义 > 创建工作流 > 拖入1个SHELL组件 > 拖入1个DATAX组件 SHELL组件(文章) 脚本 echo '文章同步 MySQL To MySQL'DATAX组件(t_article) 用到2个插件mysqlreader^[1]、mysqlwriter^[2] 选自定义模板： { &q.

基于dolphinscheduler on datax的自动数据同步

Combinerz的博客

10-08

2296

在使用dolphinscheduler基于datax进行mysql表数据同步到hive时, 当mysql表数量较大时，配置的dolphin datax任务链的工作量大且容易出错，所有开发了此简易web项目自动生成datax json文件，自动创建hive表，一键生成dolophin任务链实现自动化数据同步。源码github地址：https://github.com/zz-big/gather.git 如果觉得还不错，请star下。 dolphinscheduler官网：https://dolphinsc

基于dolphinscheduler的增量数据同步至hive分区表

fengyu_lc的博客

07-27

6135

基于dolphinscheduler的增量数据同步至hive分区表前言一、创建新的hive分区表1.外部分区表sql准备2.创建工作流3、将sql语句写入工作流中4、保存选择租户，上线运行5、任务实例中查看运行状态，状态：成功即创建成功，可以通过hive的beeline客户端执行如下命令查看表创建详情二、hive分区表创建好后需要增加分区，使用shell命令创建分区1、添加每天的定时增加分区任务2、配置shell命令，使用hivevar的方式提交参数3、配置参数：1）增加自定义变量2）点击保存并增加.

一款简单好用的数据调度工具：DolphinSchedule

SQL数据库开发

11-08

2263

大家好，我是岳哥。今天给大家分享一下常用的一款数据调动工具：DolphinSchedule。下载地址https://dolphinscheduler.apache.org/en-us/download/3.2.2前置条件JDK：下载JDK (1.8+)，安装并配置 JAVA_HOME 环境变量，并将其下的 bin 目录追加到 PATH 环境变量中。如果你的环境中已存在，可以跳过这步。解压并启动压缩...

集成kafka

技术成就人生

02-09

306

环境配置： 1.增加spring-kafka的配置 spring kafka: # 指定kafka 代理地址，可以多个 bootstrap-servers: 10.253.96.128:9092 template: # 指定默认topic id default-topic: producer listener: # 指定listener 容器中的线程数，用于提高并发量 concurrency: 5 consumer: ...

DolphinScheduler × Jiron：打造高效智能的数据调度新生态

09-06

1748

jiron数据开发平台工做流模块介绍