- 博客(589)
- 资源 (3)
- 问答 (29)
- 收藏
- 关注

原创 数据平台调度升级改造 | 从Azkaban 平滑过度到Apache DolphinScheduler 的操作实践
Fordeal的数据平台调度系统之前是基于Azkaban进行二次开发的,但是在用户层面、技术层面都存在一些痛点问题难以被解决。比如在用户层面缺少任务可视化编辑界面、补数等必要功能,导致用户上手难体验差。在技术层面,架构过时,持续迭代难度大。基于这些情况,经过竞品对比和调研后,Fordeal数据平台新版系统决定基于Apache DolphinScheduler进行升级改造。...
2022-06-16 18:00:04
1025
原创 来到DolphinScheduler大家庭,成为大数据调度的传播者!
亲爱的社区小伙伴们,Apache DolphinScheduler 2025年 Meetup 讲师&议题开始征集。提升自我价值,实现自我“破圈”,这里是你最好的舞台,快来一起开启你的技术传播之旅吧!
2025-04-02 11:17:52
472
原创 GSoC谷歌编程之夏2025招募中,Apache DolphinScheduler需要你的提案!
GSoC谷歌编程之夏活动火热进行中!今年,Apache DolphinScheduler项目也依然参与其中,设立了有趣且有挑战性的项目任务,与通用OIDC认证有关。欢迎有才华的你们来挑战!
2025-04-02 11:13:03
565
原创 纯干货 | Dolphinscheduler Master模块源码剖析
此前我们曾用万字长文解释了Apache DolphinScheduler的Worker模块源码,今天,我们再来一起看看Master模块源码的原理。
2025-03-31 14:38:54
768
原创 网易邮箱DolphinScheduler迁移实战:从部署到优化,10倍效率提升的内部经验
随着互联网的飞速发展,电子邮件作为重要的信息交流工具之一,其数据处理和任务调度的需求日益增长。网易邮箱作为国内领先的电子邮件服务提供商,为了更好地应对海量数据的处理和任务调度挑战,引入了DolphinScheduler平台,并在实际应用中进行了深入的部署与优化实践。
2025-03-27 10:10:39
677
原创 巧用输出变量,提升Dolphinscheduler工作流灵活性和可维护性
输出变量是 DolphinScheduler 任务调度中实现数据流动与任务协作的核心机制,通过显式定义和传递参数,解决了跨节点数据共享、优先级冲突等问题,同时支持复杂流程编排(如子流程、条件分支)。合理使用输出变量能显著提升工作流的灵活性和可维护性。本文将介绍 DolphinScheduler 中重要的输出变量及其使用方法。
2025-03-19 17:30:00
775
原创 让海豚替你跑SQL!DolphinScheduler高效配置三步曲
今天,让我们来深入探讨DolphinScheduler中一种常见的任务类型:SQL任务。
2025-03-18 17:10:40
249
原创 2025年开源世界:系好安全带,颠覆即将来临!
在新的一年中,预计会出现有关许可、开源 AI 定义、安全与合规以及如何支付志愿维护者报酬的新紧张局势。
2025-03-14 09:34:38
479
原创 网易邮箱如何用大数据任务调度实现海量邮件数据处理?Apache DolphinScheduler用户交流会上来揭秘!
一定不要错过这场精彩的线上用户交流会!在这里,你将有机会深入了解网易邮箱关于Apache DolphinScheduler平台的实际应用案例,汲取大厂的前沿实践经验。
2025-03-10 15:57:20
404
原创 Apache DolphinScheduler项目2月份进展总结
各位热爱DolphinScheduler的小伙伴们,今年2月份的社区月报如期而至,更新了DolphinScheduler项目和社区在本月的重大进展,请查收!
2025-03-10 15:47:31
308
原创 工作流调度必看!2025年这四大核心趋势你不能不懂
未来工作流调度技术将呈现“四化”特征: 智能化(AI渗透)、轻量化(Serverless/容器化)、泛在化(边缘-云协同)、可信化(安全自治)。技术突破的核心在于打破传统架构边界,实现资源、数据与智能体的深度协同,同时需平衡性能、成本与可持续性。企业需关注工作流调度与AI和云原生技术的融合实践,并提前布局量子计算等前瞻领域,以抢占下一代调度系统的制高点。
2025-03-04 18:20:49
823
原创 Worker模块源码实战:万字长文解析DolphinScheduler如何实现亿级任务调度
Apache DolphinScheduler的Worker模块是其分布式调度系统的核心组件之一,负责任务执行、资源管理及集群动态调度。本文将通过源码剖析,揭示其设计思想与实现细节.
2025-03-03 16:42:24
982
原创 不重视数据质量,企业要出大问题!
在数字化浪潮席卷全球的当下,数据已然成为企业的核心资产,宛如血液一般流淌于企业运营的每一个脉络之中。从市场趋势的精准洞察,到产品研发的创新方向把控;从营销策略的制定与优化,再到客户关系的精细化管理,企业的每一项关键决策都深深依赖数据的支撑。而数据质量,作为这一系列决策的基石,其重要性不言而喻。
2025-02-26 16:05:51
647
原创 看过来!Apache DolphinScheduler版本升级指南
如果只是跨小版本的更新,那么只用执行脚本就好了,但跨多个大版本升级时依然容易出现一些问题,特此总结。
2025-02-25 10:30:46
846
原创 当任务失败时,顶级调度系统如何实现分钟级数据补偿?
补数(Backfill)** 指在数据管道因系统故障、数据延迟或逻辑错误导致历史任务缺失时,重新调度并执行指定时间范围内的工作流以修复数据缺口。在大数据场景中,补数机制需解决三大核心挑战。
2025-02-21 17:26:22
502
原创 DolphinScheduler环境搭建、服务启动等常见问题及解决方案
Apache DolphinScheduler 作为一款分布式易扩展的工作流调度系统,广泛应用于大数据任务编排。然而,在实际使用中,用户可能会遇到环境搭建、服务启动、工作流执行等问题。本文结合社区文档与用户实践经验,整理以下高频问题及详细解决方案,帮助用户快速定位并解决问题。通过以上解决方案,用户可系统化应对 DolphinScheduler 的常见问题。若问题仍未解决,建议结合日志分析与社区支持进一步排查。:目前生产环境中推荐使用哪个稳定版本?Python SDK 兼容性。
2025-02-18 14:28:35
933
原创 2025开源数据工程全景图
2025年开源数据工程领域呈现蓬勃创新与生态重构的双重态势,九大技术赛道在实时化、轻量化与云原生架构驱动下加速演进。一份来自外网的2025年开源数据工程全景图全面地展示了这一领域的发展态势与走向,现翻译此文供相关从业者参考。
2025-02-17 14:57:46
138
原创 2025年,怎么靠技术传播自我“破圈”?
亲爱的社区小伙伴们,Apache DolphinScheduler 2025年 Meetup 讲师&议题开始征集。提升自我价值,实现自我“破圈”,这里是你最好的舞台,快来一起开启你的技术传播之旅吧!如果你热爱Apache DolphinScheduler,对大数据调度有着深厚的兴趣,并且愿意将你关于Apache DolphinScheduler的知识和经验分享给更多人,那么这就是你的舞台!这是一个锻炼自己的机会,让你不仅能够展示自己的技术能力,还能在开源社区中广交朋友。💡。
2025-02-17 14:39:40
853
原创 DS缩写乱争:当小海豚撞上AI顶流,技术圈也逃不过“撞名”修罗场
更“过分”的是,它仅用一周便让“DS”成为社交媒体热词,连擦边博主都在讨论“DS的RL技术突破”。这个2019年诞生的分布式任务调度系统,凭借可视化DAG界面、多租户支持和对Hadoop/Spark生态的深度集成,一度是大数据工程师的“梦中情工”。横空出世,以“低成本、高性能”为卖点,不仅席卷资本市场,还让“DS”缩写一夜之间被重新定义——从此,“DS”不再是调度工具,而是AI圈的“顶流新贵”。有开发者戏称:“以前写DS配置文档,同事问‘DS是什么’,我答‘海豚调度’;——大数据用海豚,AI用深海鱼,
2025-02-12 15:01:29
910
原创 全链路数据引擎:WhaleStudio驱动下的大数据调度与同步智能革新
大数据调度与同步作为构建现代数据管道的两大基石,对提升企业业务敏捷性、降低运营风险、支持跨平台数据集成起着至关重要的作用。通过自动化、智能化的调度和高效、可靠的数据同步,企业能够快速实现数据驱动决策,赢得市场先机。WhaleStudio 作为一款典型商业化产品,凭借其云原生分布式架构、丰富的数据源支持、智能调度算法和高性能数据同步技术,正为企业破解大数据处理中的复杂挑战提供强有力的技术保障。未来,随着数据处理技术的不断演进,调度与同步系统将更加智能和高效,助力企业在激烈竞争中稳占先机。
2025-02-12 14:50:42
922
原创 全链路数据引擎:WhaleStudio驱动下的大数据调度与同步智能革新
大数据调度与同步作为构建现代数据管道的两大基石,对提升企业业务敏捷性、降低运营风险、支持跨平台数据集成起着至关重要的作用。通过自动化、智能化的调度和高效、可靠的数据同步,企业能够快速实现数据驱动决策,赢得市场先机。WhaleStudio 作为一款典型商业化产品,凭借其云原生分布式架构、丰富的数据源支持、智能调度算法和高性能数据同步技术,正为企业破解大数据处理中的复杂挑战提供强有力的技术保障。未来,随着数据处理技术的不断演进,调度与同步系统将更加智能和高效,助力企业在激烈竞争中稳占先机。
2025-02-12 14:50:10
1071
转载 用Ambari安装DolphinScheduler,超简单!
Ambari是一个用于管理Hadoop集群的工具,虽然Ambari本身并不直接支持DolphinScheduler的安装,但我们可以通过自定义服务的方式将其集成到Ambari中。本文将描述如何使用Ambari安装DolphinScheduler。
2025-02-10 14:57:21
56
原创 大模型时代的软件进化论:恐龙式软件 vs. 猴群式软件
2025年伊始,科技圈已发生诸多震撼行业的大事件,而这在2025年将是常态。在时代剧烈变革时,恐龙最难适应,灵活协作的猴群才会是未来的王者。不可避免地,一些猴群会在竞争中被淘汰,但最终留下来的猴群,将进化成未来的软件生态主导者,就像人类最终取代了恐龙统治地球一样。在这个时代,选择恐龙模式的企业,正在走向历史的终点;而选择猴群生态的企业,正在走向无限的未来。本文由白鲸开源科技提供发布支持!
2025-02-07 11:47:02
663
原创 详细教程 | 如何使用DolphinScheduler调度Flink实时任务
DolphinScheduler 提供了丰富的功能,包括任务依赖管理、动态调度、实时监控和日志管理,能够有效简化 Flink 实时任务的管理和部署。通过 DolphinScheduler 的可视化界面,用户可以轻松创建和配置 Flink 任务,设置任务的调度规则,并实时监控任务的执行状态,帮助企业高效地处理大规模实时数据,提升数据处理的效率和可靠性。在任务定义>> 实时任务列表找到刚才编写的 flink_stream 任务流,点击执行。选择flink版本,指定任务名称,配置资源参数 最后点击确认保存。
2025-02-07 11:35:24
1384
1
原创 2025开年进展,DolphinScheduler社区1月份报告来了!
各位热爱DolphinScheduler的小伙伴们,新年新气象,今年1月份的社区月报如期而至,请查收!这里将更新DolphinScheduler项目和社区每月的重大进展,敬请关注。
2025-02-06 15:04:59
431
原创 DolphinScheduler接口实操(二):如何寻找接口
转载自风_间上一篇写了《DolphinScheduler接口实操(一):利用接口实现高效批量工作流导入及脚本上线》,通过DolphinScheduler的一些接口来实现导入-上线工作流,那么DolphinScheduler的接口应该怎么找呢?在此简单总结一篇。接下来以手动执行一次工作流为例。
2025-01-23 10:42:35
321
原创 用户案例 | 某商业银行引入白鲸调度系统实现系统升级与业务场景深度支持
白鲸开源的WhaleScheduler,作为一款基于Apache DolphinScheduler的核心研发团队打造的新一代调度工具,继承了开源使用简单、分布式、易扩展的优点,同时加入了大量商业版本功能,支持多云、信创环境的数据源与环境部署。这不仅成功解决了 DolphinScheduler 开源版的局限性和升级难题,还满足了该银行复杂的业务场景需求,实现了信创合规和系统稳定性的大幅提升在,助力银行顺利完成了现有系统的升级换代,在巧妙地满足了业务快速发展需求的同时,完美契合了国家对信息技术应用创新的要求。
2025-01-22 16:06:44
742
转载 高效批量工作流导入及脚本上线,利用DolphinScheduler接口轻松实现
实现了批量生成DolphinScheduler的任务,当导入时发现只能逐个导入,因此通过接口实现会更方便。
2025-01-22 14:22:36
383
原创 小红书已被TikTok“难民”攻占!谁能接住这泼天富贵?
谁都不会想到,美国即将对Tiktok发出的禁令会让故事发生这样的转向,小红书竟成最后“赢家”。
2025-01-16 14:39:48
797
原创 DolphinScheduler项目管理页面加载缓慢?这样优化
有时候,Apache DolphinScheduler项目管理页面会发生加载不出来的问题,浏览器查看为[尝试运行海运再运行中的sql,这里使用了arthas加上。尝试请求超时连接发现请求能出数据,但是要十多秒。由此可知是日志数据太多了。尝试优化这个查询,给。添加后验证,确实是快了。通过explain分析sql可知是。尝试运行sql,发现没有很慢。尝试查看源码,可能是慢查询。结果:还是加载不出来。
2025-01-14 18:16:17
410
原创 王炸组合:Dolphinscheudler 3.1.*搭配SeaT unnel2.3.*高效完成异构数据数据集成
本篇主要介绍如何通过Dolphinscheduler海豚调度搭配Seatunnel完成异构数据源之间的数据同步功能,这个在大数据流批一体数仓建设的过程中是一个非常好的解决方案, 稳定高效,只要用上了你肯定爱不释手。本示例定义了一个SeaTunnel同步任务,通过FakeSource自动生成数据并发送到JDBC Sink。FakeSource一共生成16行数据(row.num=16),每行有两个字段name(string类型)和age(int类型)。最终的目标表为test_table,表中同样会有16行数据。
2025-01-14 17:43:28
964
原创 王炸组合:Dolphinscheudler 3.1.*搭配SeaT unnel2.3.*高效完成异构数据数据集成
本篇主要介绍如何通过Dolphinscheduler海豚调度搭配Seatunnel完成异构数据源之间的数据同步功能,这个在大数据流批一体数仓建设的过程中是一个非常好的解决方案, 稳定高效,只要用上了你肯定爱不释手。本示例定义了一个SeaTunnel同步任务,通过FakeSource自动生成数据并发送到JDBC Sink。FakeSource一共生成16行数据(row.num=16),每行有两个字段name(string类型)和age(int类型)。最终的目标表为test_table,表中同样会有16行数据。
2025-01-14 17:41:26
877
原创 DolphinScheduler自身容错导致的服务器持续崩溃重大问题的排查与解决
修改t_ds_process_instance中的数据:根据时间周期,修改t_ds_process_instance中所有这个范围内的工作流的状态,人工使其结束(但如果DolphinScheduler和元数据库在一台服务器上,容易DolphinScheduler启动后里面把服务器资源打满,造成无法操作元数据库了)。首先发现重启恢复后,Web页面上的“运行类型”是“调度执行”,而数据库的“command_type”是“6”,那就意味着必须有一个服务会有往数据库里面去插入command_type为6的方法。
2025-01-09 15:00:16
1111
原创 化工巨头的选择:惠生工程如何用DolphinScheduler点燃数据集成新火花
程国,惠生工程(中国)数字开发主管,同时也是一位资深的架构专家,拥有超过15年的企业级应用架构设计与开发经验,并且精通全栈开发技术。在能源化工和供应链仓储物流等领域,程国成功设计并实施了多个企业级核心系统。在运维管理中,AI的应用可以显著提高自动化水平,优化设计过程,预测和管理项目风险,以及提升工厂运维的智能化。然而,AI的成功应用依赖于高质量的数据。在EPC项目管理中,数据的收集和整理是一个挑战,需要有效的策略来克服。
2025-01-07 14:49:38
867
原创 白鲸数据集成调度和集成系统与统信软件通过互认认证,共促国产软硬件生态发展
这一广泛的适配范围,充分展现了白鲸数据集成系统和调度系统出色的兼容性与稳定性,能够无缝融入多样化的国产硬件环境,为用户在不同场景下的数据集成需求提供有力支撑。而白鲸数据集成调度系统则是功能强大的数据集成和调度平台,它能够高效地实现不同数据源之间的数据迁移、转换、加载以及调度,助力企业打破数据孤岛,实现数据的统一管理和分析。通过这样的合作,统信软件与白鲸开源科技能够更好地整合各自的技术优势和资源,共同为用户提供更加优质的产品与服务,助力国产化替代进程的加速推进。在国产软硬件生态建设的征程中,又迎来重要成果。
2025-01-07 14:46:02
285
原创 基于海豚调度功能开发——推送下游系统数据库连接信息批量修改方案与实现
接着,将之前完成配置并上线的工作流及子工作流导出并在开发环境进行配置,修改推送下游系统(即官网系统)的数据库连接信息,完成配置后上线并执行一次推送任务,当所有推送任务执行完成之后让下游系统负责人进行确认是否完成所有表的数据推送,每个表的推送数据量和属性字段是否正确;通过海豚调度元数据中工作流定义、工作流任务关系、任务定义表查询出推送下游系统表所属的工作流、子工作流和推送任务后,需要对每个表数据推送任务DATAX的JSON配置文件进行解析,提取下游系统目标表,该功能实现一般是用JSON解析。
2025-01-03 16:34:26
708
原创 白鲸开源WhaleStudio荣获2024星空奖!
它包含的WhaleScheduler数据调度模块提供实时任务管理支持的能力,而WhaleTunnel则提供强大的数据集成能力。WhaleStudio的获奖,标志着其在数智技术领域的前沿地位,以及在实际应用中解决用户需求,产生积极的社会效益或经济效益的能力。此外,白鲸开源在开源商业化的道路上走在行业前列,依托开源社区,推动商业化产品的研发与创新。白鲸开源此次获奖不仅证明了白鲸开源在数据工程领域的前瞻性和实用性,也激励着团队继续在该领域深耕细作,不断探索和实现技术创新,为推动行业发展贡献力量。
2025-01-02 18:21:00
387
原创 每年一问:Java日期格式化中周所在年引发的bug
在处理涉及每年周数问题时,如果处于不同的地区或文化中,总会遇见一些标准问题。而不同的编程语言,也会有自己的处理方案,有些是每年从第0周开始,有些是从第一周开始。对于数据分析者来说,标准不统一带来的歧义是非常致命的。在Apache DolphinScheduler使用过程中,每年新旧年交替的时候,日期的使用问题就会凸显出来。为避免日期带来的歧义,笔者认为最好的办法是严格按照 ISO 8601 标准进行处理。再次提醒大家,在日期使用时注意Y的大小写和ISO 8601 的规则,避免引起不必要的麻烦。
2025-01-02 18:18:25
919
Apache DolphinScheduler高效支撑企业大数据核心业务 - 代立冬.pptx
2020-11-30
新一代大数据任务调度 - Apache DolphinScheduler介绍&Roadmap
2020-11-24
开源时代
2021-03-31
Apache DolphinScheduler的全球交流工具是?
2021-01-28
DolphinScheduler Docker 镜像仓库在?
2021-01-26
工作流定义执行后 为啥需要到工作流实例 再走任务实例? 能否直接省去工作流实例?
2021-01-04
欢迎大家来社区提问哈,看看遇到了什么问题?
2020-12-31
想参与贡献,不知道该如何参与?
2020-12-21
上游依赖未成功,下游任务可以一直等待么?
2020-12-14
Apache DolphinScheduler准备什么时候申请毕业,成为顶级项目呢?
2020-12-08
哪里有关于 DolphinScheduler 的分享(PPT | 视频)?
2020-12-08
想参与社区贡献,不知如何参与?
2020-12-04
DolphinScheduler支持mysql 8 作为数据库么?
2020-12-03
DolphinScheduler单机部署有教程么?
2020-11-30
在哪里下载DolphinScheduler安装包呢?
2020-11-27
为什么要参与开源贡献?
2020-11-27
Python 任务如何设置 Python 的版本?
2020-11-26
DolphinScheduler流程定义有几种启动方式
2020-11-26
DolphinScheduler的用户案例
2020-11-25
DolphinScheduler 主要能力体现在哪些方面?
2020-11-25
DolphinScheduler有多少家公司在生产上使用?
2020-11-25
DolphinScheduler系统支持哪些邮箱?
2020-11-23
DolphinScheduler 服务介绍及建议运行内存
2020-11-23
遇到问题,如何得到社区的帮助
2020-11-23
DolphinScheduler项目的官网地址是?
2020-11-23
如何参与DolphinScheduler社区?
2020-11-23
如何在线试用Demo?
2020-11-23
TA创建的收藏夹 TA关注的收藏夹
TA关注的人