自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(254)
  • 收藏
  • 关注

原创 Apache SeaTunnel 2.3.9 正式发布:多项新特性与优化全面提升数据集成能力

近日,ApacheSeaTunnel社区正式发布了最新版本。本次更新新增了等多个功能更新!作为一款开源、分布式的数据集成平台,本次版本通过新增功能、性能优化与问题修复,为开发者与企业用户带来了更加全面的支持。👇👇重要功能解读,可以观看视频👇👇。

2025-01-20 13:32:05 1193 1

原创 基于Apache SeaTunnel构建CDC数据同步管道

Apache SeaTunnel是一个数据集成开发平台,其发展经历了几个重要阶段:ETL时代(90年代):面向结构化数据库的数据同步,用于构建数据仓库。MPP和分布式技术流行:使用技术如Hive进行数据仓库的构建。此阶段主要使用mapreduce程序进行数据搬运和转换。数据湖技术流行:重视数据集成,强调先同步数据至数据湖仓储,再进行业务面向的转换和设计。CDC,即变更数据捕获,是一种捕获数据库变更事件(如插入、更新、删除)的技术。

2023-12-19 12:08:21 1714

原创 数据同步工具调研选型:SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比

Apache SeaTunnel 是一个非常易用的超高性能分布式数据集成产品,支持海量数据的离线及实时同步。每天可稳定高效同步万亿级数据,已应用于数百家企业生产,也是首个由国人主导贡献到 Apache 基金会的数据集成顶级项目。SeaTunnel 主要解决数据集成领域的常见问题:数据源多样:常用的数据源有数百种,版本不兼容。随着新技术的出现,出现了更多的数据源。用户很难找到能够全面快速支持这些数据源的工具。复杂同步场景。

2023-11-14 10:54:43 5704 7

原创 SeaTunnel毕业!首个国人主导的数据集成项目成为Apache顶级项目

这是首个由国人主导并贡献到 ASF 的大数据集成领域的顶级项目,这一里程碑的达成标志着 SeaTunnel 在开源软件开发领域的突破,并为其在技术、社区合作和开放创新方面的卓越表现获得了广泛认可。

2023-06-01 14:54:13 4372

原创 Apache SeaTunnel MCP Server:让AI成为你的ETL助手

Apache SeaTunnel MCP Server,可以将 SeaTunnel 的接口文档提供给 Cursor 等支持 AI 编程的 IDE,或其他支持 MCP 的 AI 工具。是一种基于MCP协议的服务器,旨在为大型语言模型(LLM)提供与外部数据源和工具的无缝集成。它通过标准化AI系统与数据源的交互方式,帮助模型获取更丰富的上下文信息,从而生成更准确、更相关的响应。‌。

2025-04-02 10:02:38 240

原创 Apache SeaTunnel 2.3.10 正式发布 —— 全新功能与多项改进,助力数据集成再升级!

Apache SeaTunnel 2.3.10 版本在功能、性能和稳定性上都实现了显著提升,我们相信这些改进能够为您的数据集成和大数据处理工作带来更多便利。社区成员和贡献者的辛勤付出!感兴趣的朋友可以下载最新版试用,体验全新升级的Apache SeaTunnel,让我们一起推动数据集成技术的持续进步!

2025-04-01 11:27:31 636

原创 PB 级大数据新势力!Apache SeaTunnel 亮相 Cloudberry 杭州 Meetup(附报名)

在大数据分析和 AI/ML 时代,高效、稳定的数据同步与集成成为企业数据架构中的关键一环。Apache SeaTunnel 作为 Apache 顶级项目,专注于实时 & 离线数据集成,已广泛应用于数据仓库、数据湖、AI 数据处理等场景。

2025-03-28 11:17:51 793

原创 Apache SeaTunnel 用户征稿计划启动!分享数据集成实践经验,赢社区荣誉!

已经被广泛应用于各类数据同步、ETL 及数据仓库建设场景。我们非常清楚的知道,社区的发展离不开每一位开发者和使用者的经验分享!为了促进经验交流,鼓励社区用户分享Apache SeaTunnel 在生产环境中的使用实践经验,我们正式发起。Apache SeaTunnel 社区期待你的投稿!💡 你的实践经验,或许正是其他开发者急需的参考!你的文章将有机会被推荐到官方渠道,获得社区曝光及荣誉奖励!如果你有丰富的使用经验、独特的技术见解,或者在。📢 加入社区,一起构建更强大的开源数据集成生态!

2025-03-28 11:03:20 446

原创 Apache SeaTunnel同步MySQL到Doris的优化策略

在数据仓库建设过程中,数据同步是一个关键环节。Apache SeaTunnel作为一个高性能的分布式数据集成工具,被广泛用于将MySQL数据同步到Doris等OLAP数据库。然而,如何优化这个同步过程,提高效率并减少资源消耗,是每个数据工程师都需要面对的挑战。本文将结合实际配置文件,详细探讨Apache SeaTunnel同步MySQL到Doris的优化策略。

2025-03-25 10:44:29 1126

原创 Apache SeaTunnel脚本升级及参数调优实战

最近作者针对实时数仓的Apache SeaTunnel同步链路,完成了双引擎架构升级与全链路参数,希望本文能够给大家有所启发,欢迎批评指正!Apache SeaTunnel 版本 :2.3.9Doris版本:2.0.6。

2025-03-20 12:26:19 539

原创 如何通过 Apache SeaTunnel 实现 MySQL 到 OceanBase的数据迁移同步

本文来源于 OceanBase 数据库官方博客,目前 Apache SeaTunnel 2.3.9 已支持本文提到的所有功能,故原文2.3.7已全部修改为2.3.9。

2025-03-17 20:23:41 647

原创 【实操回顾】基于Apache SeaTunnel从MySQL同步到PostgreSQL——Demo方舟计划

文章作者:马全才 奥克斯集团大数据工程师编辑整理:国电南自 赵鸿辉 白鲸开源 曾辉本文详细演示了如何通过实现 **MySQL **到的全量数据同步。话不多说,我们开始学习MySQL同步到PostgreSQL场景:本文涉及到所有的配置文件可关注公众号回复关键词“Demo 01”获取。

2025-03-13 18:54:36 879

原创 【用户投稿】手把手基于Apache SeaTunnel从PostgreSQL同步到Doris

本文详细演示了如何通过实现到的全量数据同步,涵盖从环境部署到生产验证的完整闭环,请各位小伙伴批评指正!

2025-03-11 15:23:08 381

原创 2025年 Apache SeaTunnel 2月份社区月报速递

各位热爱 Apache SeaTunnel 的小伙伴们,SeaTunnel 社区月报来啦!SeaTunnel 正在迅猛发展,这将有利于提升数据同步的高可扩展性、高性能及高可靠性。

2025-03-09 18:52:10 922

原创 Apache SeaTunnel 人物专访 | 张东浩:从使用者到Committer的开源历程

请您简单介绍一下自己,包括职业背景、当前的工作以及加入 Apache SeaTunnel 社区的起点。您的全名:张东浩当前职位/角色:中电信翼康公司大数据架构师主要技术方向:数据湖、数据集成加入SeaTunnel社区的时间:2024年2月在负责公司数据平台建设时,我们面临多源异构数据的高效集成需求。调研中发现SeaTunnel的插件化架构和轻量级设计非常适合解决此类问题。通过实际部署和使用,逐渐被其灵活性和性能所吸引,最终决定深入参与社区贡献。

2025-03-06 08:31:44 806

原创 写Oracle表耗时25分钟缩短到23秒——SeaTunnel性能优化

本文主要给大家介绍JDBC Source批处理任务动态切分优化,希望大家批评指正JDBC Source 如果配置了table_path和,引擎会对数据进行动态切分,可以通过分析样本数据优化切分区间,规避数据倾斜问题。目前发现任务即使配置了,动态切分算法仍然会把数据进行全表切分,在从大表中读取少量数据的场景下,任务切分阶段会耗费大量的时间,需要修改下面相关的流程进行优化。下面所有出现SQL语句的地方均以MySQL为例子进行说明,具体不同的数据源有不同的子类方法overwrite实现。

2025-03-03 20:47:35 564

原创 【万字长文】开源之播对话白鲸开源CEO郭炜--乐观主义的开源精神走得更远

本文为白鲸开源科技CEO郭炜1小时深度访谈全记录来源于:开源之播」·Episode15:对话郭炜–乐观主义的开源精神走得更远大家好,我是郭炜,开源圈的“郭大侠”。作为 Apache 基金会的成员,我曾参与并孵化了多个开源项目,如早期的,以及(中文名:海豚调度)和。这些都是 Apache 的顶级项目。现在,我创办了,致力于通过开源打造中国的开源商业公司。今天很高兴与大家分享我的一些经历与思考。去年,我写了一篇文章,标题非常直白:“”——这篇文章的确是非常及时的。

2025-02-26 16:22:29 643

原创 Apache SeaTunnel 构建实时数据同步管道(最新版)

首先,在数据集成发展早期,数据处理采用的是 ETL 模式,也就是从抽取(Extract)、经过转换(Transform)、再加载到目标(Load)的过程。主要面向结构化数据,数据主要来自于传统的 SQL Server、Oracle、MySQL 等数据库,以及结构化的系统,如 ERP、CRM 等。使用专业的数仓工具,或者一些大型的 DB 来完成存储的任务。在这一个阶段比较有代表性的数据集成工具有 Informatica、Kettle、Talend 等。

2025-02-25 19:08:34 1189

原创 @数据工程师 Apache SeaTunnel Community Call 会议通知

各位 Apache SeaTunnel 社区小伙伴们,大家好!我们将于举行。本次会议将涵盖最新的项目进展、技术讨论、社区动态等内容,欢迎大家积极参与!

2025-02-25 15:17:38 288

原创 SeaTunnel社区「Demo方舟计划」首期活动上线—— MySQL CDC实时同步至PostgreSQL实战

Apache SeaTunnel是一个云原生的高性能海量数据集成工具。北京时间 2023 年 6 月1 日,全球最大的开源软件基金会Apache Software Foundation正式宣布Apache SeaTunnel毕业成为Apache顶级项目。目前,SeaTunnel在GitHub上Star数量已达 8k+,社区达到6000+人规模。

2025-02-20 17:17:13 1112

原创 Apache SeaTunnel基于JDBC连接器开发教程

做JDBC连接器开发我们一般仅需要关注两部分,第一个是catalog包目录,第二个是internal中的dialect。这两部分已经提供了区别不同数据库的差异性描述,其余大部分代码是公共使用,不建议轻易修改,否则可能会影响所有引用类。中使用来标识数据库类型,用于定制连接器参数效验规则,是工厂类用来创建实例的方法。@OverrideMySqlCatalog 中包含了对于数据库元数据的查询,例如(库信息查询)、

2025-02-19 15:36:48 708

原创 深度揭秘:我们是如何设计一个每天同步万亿数据的神器 - SeaTunnel架构解密

正如 Linus Torvalds 说过的:"Talk is cheap. Show me the code."但今天我想说的是:"Code is cheap. Show me the value."技术的价值不在于它有多复杂,而在于它能解决多少实际问题。SeaTunnel 的成功证明:有时候,最优雅的解决方案往往是最简单的。本文由白鲸开源科技提供发布支持!

2025-02-18 12:49:43 1003

原创 Apache SeaTunnel 社区2025年全年计划公布,共同构建下一代数据集成生态

正在全球范围内寻找热爱开源、乐于分享的技术先锋!无论你是开发者、用户、布道者还是行业专家,这里都有属于你的舞台。欢迎社区👏有志之士加入我们,一起推动开源数据集成工具的创新与发展!申请流程:请统一添加联系社区经理🙆‍微信18819063834/邮箱📮。

2025-02-13 09:22:46 251

原创 DeepSeek R1的崛起已经势不可挡,而开源商业化在中国到底行不行?

而根据白鲸开源CEO郭炜的介绍,白鲸开源的商业版里有一些核心的功能,开源社区版并没有的功能,同时,因为其实白鲸开源同时运行了两个Apache的开源项目,所以商业版中自然而然把这两个项目在商业版中合成了一个来做,另外在企业级功能需求的放置决策中则和涛思数据一样将企业用户关心的那些如界面操作,安全和权限管理等作为收费功能放在了商业版中。在去年的时候,中国头部的公司,中国人保、中国人寿、证券、中信建投,然后在台湾的旺旺集团,东南亚板块的风等通过开源成为了白鲸开源的用户。》,该文章在行业内获得广泛关注与探讨。

2025-02-12 18:29:25 689

原创 最近社区热议的issue #8542,被疯狂+1的需求急需你的加入!

最近社区Github最火的issue#8542"添加 Python 脚本工具进行Transform" —— 这个被疯狂+1的需求值得被更多大神知道!现在正是参与贡献的最佳时机,你的代码可能就出现在下个正式版本中!本Issue由社区提出,目前处于讨论阶段,想参与的请下滑查看详情!

2025-02-12 18:08:38 120

原创 Apache SeaTunnel 2025年1月份社区月报

Apache SeaTunnel 社区在过去一个月里继续取得了显著进展,特别是在新特性的发布和修复的过程中,大家的贡献推动了项目向前发展。Apache SeaTunnel 项目正在快速发展,致力于提升数据同步的可扩展性、性能和可靠性。“各位热爱 Apache SeaTunnel 的小伙伴们,欢迎来到本期的社区月报!

2025-02-08 09:52:21 839

原创 DeepSeek R1 × SeaTunnel:引领下一代智能数据集成革命

在数据与大模型交汇的时代浪潮中,Apache SeaTunnel以开源之力重新定义了数据集成工具的边界。无论是降低AI应用门槛,还是加速企业智能化转型,SeaTunnel正成为开发者与企业的首选武器。立即行动,搭乘这趟开往未来的数据快车,共同书写智能时代的新篇章!本文由白鲸开源科技提供发布支持!

2025-02-07 17:15:02 799

原创 Apache SeaTunnel 整体架构运行原理

数据集成在现代企业的数据治理和决策支持中扮演着至关重要的角色。随着数据源的多样化和数据量的迅速增长及业务需求的快速变化,企业需要具备强大的数据集成能力来高效地处理数据。SeaTunnel通过其高度可扩展和灵活的架构,帮助企业快速实现多源数据的集成。在现代数据生态中,AI的快速发展也对数据集成提出了新的要求。通过集成AI能力,SeaTunnel可以帮助企业在数据处理过程中进行智能分析、异常检测、数据质量评估及优化,从而进一步提升数据的质量和整体智能化水平。

2025-02-06 15:29:02 1423

原创 一文搞懂 CDC(Change Data Capture)同步原理解析

CDC(Change Data Capture)是一种用于跟踪数据库库变更事件(插入、更新、删除)中的行级更改,并将事件以发生的顺序通知到其他系统处理。在容灾场景下,CDC主要实现的是主备间的数据同步,即从主数据库到备数据库的数据实时同步。

2025-02-06 09:42:41 459

原创 某政务行业基于 SeaTunnel 探索数据集成平台的架构实践

在当今的数字化时代,数据被称为“新石油”,其价值在于通过分析和应用为企业提供决策支持。然而,许多企业面临的一个共同挑战是数据割裂——数据分散在不同的业务线或系统中,导致信息孤岛、效率低下等问题的产生。拿数据集成到底是什么呢?数据集成作为解决上述问题的重要手段,主要是通过将来自不同来源的数据标准化、清洗并统一整合成视图或存储形式,为企业的数据治理、分析和业务使用提供坚实的基础。那给大家讲了这么久,SeaTunnel是什么呢?

2025-01-16 19:35:35 1141

原创 Apache SeaTunnel 荣登 2024 年度中间件开源项目 Top 50 榜单

近日,Apache SeaTunnel 项目成功入选榜单。该榜单由技术社区评选,旨在表彰在中间件领域具有突出表现的开源项目。

2025-01-15 23:00:33 661

原创 Web 最新动态!PMC带你解读 SeaTunnel 2.3.9 版本功能特性

Apache SeaTunnel是一个云原生的高性能海量数据集成工具。北京时间 2023 年 6 月1 日,全球最大的开源软件基金会Apache Software Foundation正式宣布Apache SeaTunnel毕业成为Apache顶级项目。目前,SeaTunnel在GitHub上Star数量已达 8k+,社区达到6000+人规模。

2025-01-13 11:11:48 309

原创 Data For AI:2025年数据集成技术趋势预测

2024年,数据集成技术已经取得了显著的进展,但随着技术的不断演进和业务需求的多样化,数据集成面临的挑战依然存在。数据集成的起点在于多源异构数据的采集,涵盖传统数据库(如Oracle、MySQL、信创数据库等)文件(Excel、CSV、OSS、S3、FTP)、SaaS服务(如SAP、Salesforce)以及API等非结构化接口。本文将旨在为数据开发者分析2024年数据集成技术的现状,探讨当前面临的挑战,并基于技术趋势和行业需求预测2025年数据集成技术的发展方向,如有纰漏,欢迎指正!

2025-01-13 11:03:37 853

原创 对话新晋 Apache SeaTunnel Committer:张圣航的开源之路与技术洞察

请您简单介绍一下自己,包括职业背景、当前的工作以及加入 Apache SeaTunnel 社区的起点。张圣航大数据架构师从事汽车行业,大数据架构师,负责数据平台整体工作,主导数据运维、同步、开发等平台建设,为业务系统提供高效数据支撑。2024年6月当时使用的是 DataX ,而 DataX 作为一款经典单机离线的数据集成工具,缺乏服务化及分布式处理能力,在大规模数据同步场景下存在明显局限,需要一款更全面的数据集成框架,基于以上痛点,我们选择并使用了Apache SeaTunnel!

2025-01-09 23:06:04 1026

原创 SeaTunnel 增强对 Excel 读取能力,支持xlsx、xls、公式单元格

在数据集成场景中,Excel 文件作为常见的数据来源,其格式多样化和功能复杂性常常给开发者带来一定挑战。自动识别.xlsx和.xls文件类型,不再依赖文件后缀名判断;新增对公式单元格的值解析支持;优化数据类型转换的容错性。修改完之后,增强对 Excel 的读取能力,自动识别 xlsx、xls,支持读取公式单元格的值,进一步提升了 SeaTunnel 在 Excel 数据处理场景中的易用性和稳定性。如果想让其他基于的插件都生效,那就打包模块.然后将的jar放进 SeaTunnel 部署目录的。

2025-01-09 22:43:24 668

原创 Apache SeaTunnel+Apache Doris=全面淘汰Lambda架构

Apache SeaTunnel 是一个新一代实时多源数据同步工具,被誉为大数据高速公路。它支持160+数据源,能够实现批流一体的数据集成。作为一个开源项目,它在 GitHub 上拥有8.1k的高星标,显示了其受欢迎程度。SeaTunnel 能够连接上百种源数据库/地点,实现数据同步与集成,目标数据库/地点包括但不限于 Druid、Redis、Hive、Iceberg、Kudu、HBase 等。与传统解决方案相比,如 DataX,SeaTunnel 在性能上快了30%,甚至在某些场景下快 30 倍。

2025-01-07 14:41:11 768

原创 Apache SeaTunnel 社区 2024 年度报告

2024 年是 Apache SeaTunnel 社区高速成长的一年。从技术创新到用户生态,从版本发布到社区活动,我们见证了无数开发者与企业在数据集成领域的探索与突破。

2025-01-03 16:32:22 450

原创 万字长文 | 一文讲透大数据同步专属引擎 “Zeta” 执行全流程

reader在启动时,会向enumerator注册自己的地址,在SourceSplitEnumeratorTask中内部维护了一个map结构,保存了reader的信息,每当有新reader注册时就会判断是否达到maxReaderSize,当达到数量后,会将readerRegisterComplete置为true。有没有实时的将数据写入到具体的存储里面,也是根据连接器的实现来决定,有些连接器可能为了性能考虑会将数据进行攒批或者其他策略来进行发送写入,那么这里的调用与真正的数据写入还是会有一定的延迟的。

2025-01-03 16:30:46 747

原创 拥有强大的Embedding Transform插件是一种什么体验?

Apache SeaTunnel的Embedding转换插件是一个强大的工具,它能够将文本数据转换为向量化表示,从而使得这些数据可以被用于各种机器学习和数据分析任务。这个插件支持多种模型提供商,并且可以轻松集成不同的API。在这篇文档中,我们将深入了解Embedding插件的配置选项,包括如何指定模型提供商、API密钥、自定义配置,以及详细的示例配置,帮助读者理解如何在实际项目中应用这些概念。无论您是想要利用预训练模型还是自定义模型,本文都将为您提供必要的指导和参考。

2025-01-03 14:36:06 1000

原创 开源数据集成平台白皮书重磅发布《Apache SeaTunnel 2024用户案例合集》!

2025年新年临近,Apache SeaTunnel 社区用户案例精选📘也跟大家见面啦!在过去的时间里,SeaTunnel 社区持续成长,吸引了众多开发者的关注与支持。为了致谢一路同行的伙伴,也为了激励更多人加入技术共创,我们特别整理制作了这份300多页的,作为新年的特别礼物送给大家。2025年,愿每一位开发者都能在数据的浪潮中乘风破浪,无畏挑战,共创辉煌。让我们一起拥抱技术的力量,书写新的篇章!

2025-01-02 16:53:56 696

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除