不二人生
刀光剑影江湖情,摧枯拉朽浪滔滔。功名利禄拂衣去,山高水远路迢迢。一个上得了厅堂下得了厨房、左手写诗右手写词的男人
展开
-
记录一次StarRocks集群迁移的经历
新入职了一家公司,刚去做了两张报表后,接到一个任务,做StarRocks 集群迁移,背景是这样的就是以前是自建的SR,但是这个SR 是给线上业务用的,也就是说不是分析性业务,而是面向产品ToC 的,也了解了一下是因为单表数据量太大了,所以直接使用了SR,这多少有些让人哭笑不得了,现状是就目前这个SR 存在两个问题。但是遇到的问题是备份成功了,但是恢复的时候报错,云厂商说解决不了,3.0版本到3.3版本元数据发生变更,不能用备份恢复的方式来迁移。部署了半天,启动报错,错误忘记记录了,以后补上。原创 2025-04-03 12:00:08 · 70 阅读 · 0 评论 -
Deepseek × SeaTunnel:引领下一代智能数据集成革命
在数据与大模型交汇的时代浪潮中,Apache SeaTunnel以开源之力重新定义了数据集成工具的边界。无论是降低AI应用门槛,还是加速企业智能化转型,SeaTunnel正成为开发者与企业的首选武器。立即行动,搭乘这趟开往未来的数据快车,共同书写智能时代的新篇章!原创 2025-02-07 12:46:02 · 4963 阅读 · 0 评论 -
SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比
Apache SeaTunnel 作为一款强大的数据同步和转换工具,凭借其部署易用性、容错机制、数据源支持、性能优势、功能丰富性以及活跃的社区支持,成为了数据工程师们不可或缺的利器。SeaTunnel 能够满足各种规模和类型的数据处理需求,为用户提供高效、稳定和灵活的数据处理解决方案。随着数据环境的不断演变和发展,SeaTunnel 将继续在数据同步和转换领域发挥领导作用,推动数据驱动的业务发展。同时有商业版的产品,由商业公司提供产品企业级功能增强、服务、运维、Debug。原创 2024-07-25 17:10:18 · 36866 阅读 · 0 评论 -
Apache SeaTunnel和SeaTunnel Web 安装部署
如果想通过手动下载连接器来安装连接器插件,则需要在connectors目录包含以下子目录,如果不存在,需要手动创建,手动下载的地址 https://repo.maven.apache.org/maven2/org/apache/seatunnel/,这里我们看一下SeaTunnel 的安装部署,早期的SeaTunnel 是没有web 页面的,只能在命令行里使用,现在SeaTunnel 已经有了web 端了,这就降低了我们的使用门槛。,即可使用本地maven,配合阿里云的maven源,可加速下载。原创 2024-07-25 17:08:00 · 36606 阅读 · 0 评论 -
数据平台—邮件服务
数据平台一个比较常见的场景就是将每天的汇总数据通过邮件的形式发送出去,所以我们需要一个比较通用的邮件服务主要实现的功能是通过提供一段SQL, 将该SQL 获取的数据通过邮件的形式进行发送。主要包含两个模块,第一个是邮件模块,第二个是获取数据模块。原创 2024-05-08 11:47:58 · 66828 阅读 · 0 评论 -
dolphinscheduler 的使用
dolphinschedulerder 不论是在执行datax 或者sql 或者是shell 任务中,都会生成一个中间的配置文件,然后再去执行这个配置文件,但是有时候如果任务报错,或者出现什么问题的时候,你想去看一下这个配置文件,你会发现文件被删除了,这是因为我们不是以开发者模式执行的,当然这个配置默认也是false ,当你配置成true 的时候,你在日志的最后就会看到类似的输出。除此之外,我们要在这里选择任务流,这样就 确定了任务所属于所属的任务流了,选择了任务流之后我们就可以选择依赖了。原创 2024-04-03 10:46:55 · 81956 阅读 · 0 评论 -
dolphinscheduler 安装部署
调度软件其实在整个大数据开发中,占有举足轻重的地位,有了数据平台,有了数据仓库,那就需要一个系统来调度和管理数仓的任务,因此调度系统的地位可见重要。一个调度软件的稳定性就决定了我们的数据能不能按时产出,往往数据仓库的的任务都是有依赖,从严格意义来讲就是一个无环的大蜘蛛网(有向无环图简称 DAG),所以要管理这么庞大的任务正常运行,就需要一个好的调度系统。原创 2024-04-01 13:10:03 · 82849 阅读 · 1 评论 -
DataX 源码改造支持Mysql 8.X
这个错误在GitHub 上有人提到了,如果你的maven版本太低可以尝试升级,但是maven 3.9.X 也不行,太新了,因为与之匹配的。这里我们只是针对mysql 的读写操作进行了改动,所以打包的时候我们可以将那些其他没有改动的模块注释掉,不需要打包,这里报了一个错误。和我们在idea 打包后的进行对比,发现我们可以直接将这个文件夹下的全部文件进行替换,可以打包。这里我们克隆源代码,在IDEA 中打开,修改mysql 的依赖的版本,如下图所示。所这里我是限制了插件的版本,这下就可以打包成功了。原创 2024-03-26 20:01:47 · 59291 阅读 · 1 评论 -
Apache SeaTunnel和SeaTunnel Web 安装部署
这里我们看一下SeaTunnel 的安装部署,早期的SeaTunnel 是没有web 页面的,只能在命令行里使用,现在SeaTunnel 已经有了web 端了,这就降低了我们的使用门槛。在下载之前,可以对config/plugin_config进行编辑,注释掉不需要的connector,可以添加需要的connector,命令后,这些jar 包都被安装到了默认的仓库去了,所以说明我们直接去改这个脚本其实是有问题的,其实你可以看我们上面的截图。其实这个和上面都有同样的问题,所以我们的完整命令如下。原创 2024-03-25 20:21:03 · 56832 阅读 · 1 评论 -
Apache SeaTunnel 初识
SeaTunnel 是一个简单易用的数据集成框架,在企业中,由于开发时间或开发部门不通用,往往有多个异构的、运行在不同的软硬件平台上的信息系统同时运行。本质上,SeaTunnel 不是对 Saprk 和 Flink 的内部修改,而是在 Spark 和 Flink 的基础上做了一层包装。作为SeaTunnel的默认引擎,它支持高吞吐量、低延迟、强一致的同步作业运行,更快、更稳定、更节省资源、易于使用。SeaTunnel是一个非常易于使用的超高性能分布式数据集成平台,支持海量数据的实时同步。原创 2024-03-25 13:12:14 · 56940 阅读 · 1 评论 -
数据同步工具—SeaTunnel简介
SeaTunnel是一个非常易于使用的超高性能分布式数据集成平台,支持海量数据的实时同步。它每天可以稳定高效地同步数百亿数据,并已用于近100家公司的生产。SeaTunnel 是一个简单易用的数据集成框架,在企业中,由于开发时间或开发部门不通用,往往有多个异构的、运行在不同的软硬件平台上的信息系统同时运行。数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。SeaTunnel 支持海量数据的实时同步。原创 2022-12-22 12:14:19 · 48978 阅读 · 0 评论 -
Binlog解析工具—Maxwell 实践应用
maxwell 发送数据到Kafka,maxwell 初始化,maxwell replication_host原创 2022-10-06 09:27:31 · 47101 阅读 · 0 评论 -
Binlog解析工具—Maxwell 初识
今天主要介绍了Maxwell 的安装部署以及简单的使用,关于Maxwell的生产级使用我们在下一篇单独讲,需要重点注意的是关注Maxwell的版本注意Maxwell和canal 的技术选型。原创 2022-10-05 09:59:24 · 46445 阅读 · 0 评论 -
数据同步工具—DataX—Web部署使用
这一节主要部署了DataX—Web ,DataX—Web 主要解决了DataX的任务管理、运维的问题,而且有自己的调度,但是在整个数仓中却难以使用,因为我们无法将DataX—Web 和已有的调度系统进行整合。所以比较好的方式是在我们的调度系统中去集成DataX—Web,那这个时候只有任务构建这个模块是我们需要的,其他的监控、数据源管理调度系统已经有了,所以这个东西应用场景有限,只能作为一个参考。原创 2022-10-05 09:55:36 · 47242 阅读 · 0 评论 -
数据同步工具—DataX部署使用
这一节我们主要介绍了DataX 的使用,使用的时候我们主要是需要配置一个包含reader 的 writer 的json 文件,总体来说使用还是比较简单的,但是配置还是有点繁琐的。原创 2022-10-02 08:58:31 · 46953 阅读 · 0 评论 -
数据同步工具—DataX 初识
DataX完成单个数据同步的作业,我们称之为Job,DataX接受到一个Job之后,将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点,承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。DataXJob启动后,会根据不同的源端切分策略,将Job切分成多个小的Task(子任务),以便于并发执行。Task便是DataX作业的最小单元,每一个Task都会负责一部分数据的同步工作。原创 2022-10-02 08:56:13 · 46378 阅读 · 0 评论 -
数据同步工具—sqoop 2.x
sqoop1优点架构部署简单 ,sqoop1的缺点命令行方式容易出错,格式紧耦合,无法支持所有数据类型,安全机制不够完善,例如密码暴漏, 安装需要root权限,connector必须符合JDBC模型sqoop2的优点多种交互方式,命令行,web UI,rest API,conncetor集中化管理,所有的链接安装在sqoop server上,完善权限管理机制,connector规范化,仅仅负责数据的读写。sqoop2的缺点,架构稍复杂,配置部署更繁琐。更多请参考官方文档。原创 2022-10-01 12:16:34 · 47012 阅读 · 0 评论 -
数据同步工具—Sqoop
Sqoop 作为一个数据同步工具,主要用于关系型数据库和Hadoop的数据相互同步。table 模式query 模式job 主要解决了增量同步的元数据(last-value)维护问题,当然本身也可以用来做非增量的同步,ETL 中更常用的增量模式是通过query 来完成的,这是因为query 模式更加灵活。原创 2022-09-30 20:47:20 · 49245 阅读 · 0 评论