自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 资源 (10)
  • 收藏
  • 关注

原创 DPDI online在线调度系统介绍

DPDI Online 是一款基于Kettle的强大在线任务调度平台,凭借其高效与灵活性,专为调度和监控Kettle客户端生成的ETL任务而设计

2024-08-08 10:21:51 13114 1

原创 DPDI online在线调度系统环境部署

DPDI Online是⼀款基于Kettle的强⼤在线任务调度平台,凭借其⾼效与灵活性,专为调度和监控Kettle客户端生成的ETL任务而设计,是一款智能ETL任务调度专家

2024-08-08 10:02:31 1143

原创 DPDI Online在线kettle调度工具

DPDI online是基于kettle构建的一个高效、灵活的在线任务调度平台,专门用来调度和监控由Kettle客户端创建的ETL任务,支持多服务器多kettle版本运行

2024-08-06 12:56:32 14424

原创 DPDI版本升级说明

在此期间,三倍镜团队秉持高度责任感,主动与用户保持高频沟通,针对用户反馈的各类问题,我们秉持“问题不过夜”的原则,迅速响应并隔天紧急发布修复版本,先后发布了v2.0.1和v2.0.2,以确保用户能够获得稳定、高效的使用体验。通过这几天的用户反馈与持续优化,我们进一步完善了自研的定时调度功能模块,这不仅为当前产品的稳定运行提供了有力保障,更为我们未来拓展其他产品功能奠定了坚实基础,例如调度 DataX、Hop等ETL工具。这一步骤不仅能够提升您的使用体验,还能为您的数据管理提供更多的灵活性和稳定性。

2025-04-04 20:47:55 868

原创 Dispatch PDI 社区版全新升级

Dispatch PDI是一款基于Kettle的强大在线任务调度平台,凭借其高效与灵活性,专为调度和监控Kettle客户端生成的ETL任务而设计。Dispatch PDI 具有以下特性:一键部署 支持Windows、Mac和Linux环境,一键完成部署,轻松实现智能化操作。自主研发 由三倍镜团队联合开发,拥有完整源代码知识产权,保障平台的创新性与专业性。优雅界面 配备美观易用的UI,提供便捷的可视化操作体验。灵活部署 支持属地化部署,精准满足您的特定业务需求。提供个性化定制服务,灵活适应市场变化。

2025-03-25 22:34:51 856

原创 Dispatch PDI升级预告

全新视觉设计,优化界面布局,带来更直观、更流畅的操作体验,大幅提升用户交互效率。修复Cron调度方式重复调用问题,确保任务触发精准到秒,提升调度可靠性。新增系统管理菜单,涵盖用户及功能权限配置,实现精细化权限管理。支持路径配置,快速获取ETL任务,任务管理更加便捷高效。优化仓库管理中的文件及文件夹路径选择,操作更加便捷高效。支持本地文件调度,不依赖资源库,调度方式更加灵活自由。官网:http://triplemirror.com/提供系统版本、版权信息等,方便用户快速了解系统详情。

2025-03-17 17:24:22 322

原创 三倍镜团队给您拜年啦!愿您在新的一年里,数据如龙腾四海,调度如鱼跃龙门!

过去的一年,DPDI的成长离不开每一位用户的陪伴和支持。新的一年,我们将继续努力,为大家带来更好的产品和服务。我们相信,在新的一年里,DPDI会变得更加优秀,也会给大家带来更多的惊喜。愿大家在新的一年里家庭幸福美满,身体健康,万事如意。让我们携手共进,共创美好未来!三倍镜团队给您拜年啦!愿您在新的一年里,数据如龙腾四海,调度如鱼跃龙门!

2025-01-27 15:36:59 485

原创 实操演练第003讲-数据通途:客户端连接SQL Server的完美攻略

SQL Server Management Studio (SSMS) 是一种集成环境,用于管理从 SQL Server 到 Azure SQL 数据库的任何 SQL 基础结构。SSMS 提供用于配置、监视和管理 SQL Server 和数据库实例的工具。使用 SSMS 部署、监视和升级应用程序使用的数据层组件,以及生成查询和脚本。

2025-01-21 13:12:48 1141

原创 数据处理与任务调度的双引擎:ETL工具PDI与DPDI调度管理工具的全面剖析

Dispatch PDI是基于PDI构建的一个高效、灵活的在线任务调度(Dispatch)平台。它允许开发人员和数据工程师以简单的方式定义、管理和执行定时的数据处理任务,是大数据环境中的ETL流程自动化的好帮手Dispatch PDI是一款基于PDI的强大在线任务调度平台,凭借其高效与灵活性,专为调度和监控PDI客户端生成的ETL任务而设计DPDI Online 具有以下特性多服务器多版本支持:无缝整合不同服务器和Kettle版本,确保任务执行兼容性和一致性。

2025-01-10 16:14:31 997

原创 DPDI实操演练第002讲-最强三件套之Dispatch PDI+PDI+PRD生成DPDI应用数据库数据字典

PDI也称为Kettle,PDI是利用Spoon设计器设计转换(Transformation)和作业(Job),转换主要是针对数据的各种处理,⼀个转换⾥可以包含多个步骤(Step),作业是处理流程,⼀个作业⾥包括多个作业项(Job Entry),⼀个作业项代表了⼀项⼯作,转换也是⼀个作业项。资源管理->连接配置、修改数据库URL(IP,端口,数据库Schema)->新增->选择数据库类型->填写数据库名称、数据库描述、数据库用户名、数据库密码->点击测试连接->测试连接成功点击确定完成数据库连接配置。

2024-10-31 15:50:09 1640

原创 DPDI实操演练第001讲--手工调度本地PDI任务生成日期维度数据

DPDI Online 您的智能ETL任务调度专家DPDI Online 是一款基于Kettle的强大在线任务调度平台,凭借其高效与灵活性,专为调度和监控Kettle客户端生成的ETL任务而设计DPDI Online 具有一下特性多服务器多版本支持:无缝整合不同服务器和Kettle版本,确保任务执行兼容性和一致性联合开发:由三倍镜成员团队共同研发,确保平台的创新性和专业性灵活部署:支持属地化部署,满足您的特定业务需求定制化开发:提供个性化定制服务,以适应不断变化的市场需求。

2024-10-24 16:56:36 900

原创 Dispatch PDI发布新版本了

我们很高兴地宣布,Dispatch PDI的全新轻量级版本现已在官网上线!这款专为高效ETL任务调度和监控设计的平台,将为您的数据处理带来前所未有的便捷。轻量版不含Kettle客户端,如需Kettle客户端,请与我们联系,我们将提供百度网盘的下载链接。如在下载、部署或使用过程中遇到任何问题,欢迎随时联系三倍镜团队。加入三倍镜,让我们助您一臂之力,共同开启数字化转型的新篇章!我们承诺成为您坚实的后盾,确保您能够顺利使用新版本。关注官网的最新动态栏,了解本次更新的详细信息。使用手册和最佳实践也可在官网找到。

2024-10-22 11:54:32 223

原创 DPDI基础版安装部署说明

DPDI online部署包下载地址:Windows: http://files.pizzalord.site/api/public/dl/7Tnq6ScE/release/dpdi-community-win.zipLinux: http://files.pizzalord.site/api/public/dl/otCt9WuI/release/dpdi-community-linux.zipDPDI应用部署支持windows和Linux环境部署,采用运行脚本一键启动,结合web页面引导完成部署,部署方式

2024-09-10 17:15:20 810

原创 DPDI Online在线kettle调度系统升级内容

DPDI online是基于Pentaho Data Integration构建的一个高效、灵活的在线任务调度(Dispatch)平台。它允许开发人员和数据工程师以简单的方式定义、管理和执行定时的数据处理任务,是大数据环境中的ETL流程自动化的好帮手

2024-08-15 17:32:27 198

原创 DPDI online在线kettle调度工具环境部署升级

DPDI Online 是一款基于Kettle的强大在线任务调度平台,凭借其高效与灵活性,专为调度和监控Kettle客户端生成的ETL任务而设计

2024-08-15 17:28:14 5005 1

原创 DPDI online

DPDI online是基于kettle构建的一个高效、灵活的在线任务调度平台,专门用来调度和监控由Kettle客户端创建的ETL任务,支持多服务器多kettle版本运行

2024-08-09 10:52:07 290

原创 再谈kettle两种循环之--调用http分页接口循环获取数据

总结:循环的设计可以解决循环1内存溢出的问题,该设计关键在于需要在job中勾选GET_HOUSE_DATA转换的两个勾以及设置参数传递(Options 下的Execute every input row和Parameters下的Copy results to parametes)循环job可参考,变量运用可参考,调用http分页接口循环获取数据可参考,生成连续记录可参考,MD5加密可参考。表输入:这里采用数据库连接,运用sql的方式生成http接口调用信息,框出来部分是循环变量替换的关键设置。

2024-06-26 16:08:31 3128

原创 kettle安装文件下载(含多版本)

kettle是一款基于java开发的洗数工具,可以通过图像化的操作界面,拖拉拽的操作方式,实现数据导入导出清洗等功能,还支持编写脚本进行数据处理,功能十分强大。本文主要记录一下kettle各版本下载路径。

2024-06-25 15:31:47 8055

原创 kettle实时增量同步mysql数据

*Debezium介绍官网地址:https://debezium.io/documentation/Debezium是一个开源项目,为捕获数据更改(Capture Data Change,CDC)提供了一个低延迟的流式处理平台,通过安装配置Debezium监控数据库,可以实时消费行级别row-level))的更改。作为一个分布式系统,Debezium也拥有良好的容错性Debezium支持数据源:MySQL,MongoDB,PostgreSQL,Oracle,SQL Server等。

2024-06-14 14:40:51 1254 1

原创 Linux部署调度工具xxl-job

所以大家在实施kettle作业调度功能的时候,通常采用以下几种方式:使用spoon程序来启动Job,使用crontab或计划任务,自主开发java程序来调用kettle的类库。​ xxl-job是一个分布式的任务调度平台,其核心设计目标是:学习简单、开发迅速、轻量级、易扩展,现在已经开放源代码并接入多家公司的线上产品线,开箱即用。xxl是xxl-job的开发者大众点评的许雪里名称的拼音开头。读后有疑问请加QQ群!作者个人qq:420773639。如内容有错欢迎大家指正!3. 部署maven环境。

2024-06-04 15:50:59 1899 1

原创 mysql日期格式说明

V:周(01-53)星期日是一周的第一天,与%X使用。%v:周(01-53)星期一是一周的第一天,与%x使用。%r:时间,12-小时(hh:mm:s5AM或PM)%X:年,其中的星期日是周的第一天,4位,与%V使用。%x:年,其中的星期一是周的第一天,4位,与%V使用。%T:时间,24-小时(hh:mm:ss)%U:周(00-53)星期日是一周的第一天。%u:周(00-53)星期一是一周的第一天。%d:月的天,数值(00-31)%e:月的天,数值(0-31)%m:月,数值(00-12)

2024-04-15 17:14:38 568

原创 kettle介绍-Step之Script Values/Mod(JavaScript 代码) 一

JavaScript 代码步骤提供了一个用户界面,用户可以编写 JavaScript 代码到脚本区,脚本区域中的每一行代码都会执行一次,该步骤具有两个窗格和一个表Step name:步骤的名称,在单一转换中,名称必须唯一:该步骤中创建的 JavaScript 脚本:插件内置常量,用于数据行流程控制- SKIP_TRANSFORMATION:从输入行集中排除当前行,然后继续处理下一行- ERROR_TRANSFORMATION:从输入行集中排除当前行,生成错误,并且不处理其余所有行。

2024-04-15 15:52:38 1448

原创 kettle介绍-Step之Return steps metrics

转换步骤信息统计步骤可以用于统计当前转换中的其它步骤信息,包括步骤执行后的输入行数、输入行数、读入行数、更新行数等。此步骤可以直接拖入转换中,不需要连接其它步骤,手动填写需要进行统计的步骤名称即可。

2024-04-10 15:58:06 444

原创 kettle介绍-Step之REST Client

REST 客户端转换步骤可以消费 RESTful 服务。RESTful 是一种网络应用程序的设计风格和开发方式,基于 HTTP,可以使用 XML 格式定义或 JSON 格式定义。在该体系中 Web 服务被视为资源并且可以通过其 URL 进行标识,该步骤有常规、认证、SSL、标题、参数、矩阵参数六个标签页。

2024-04-10 14:49:59 2602

原创 kettle介绍-Step之Abort

中止步骤用于读取指定行数之后停止读取剩余行数,可以用于调试转换Step Name:步骤的名称,在单一的转换中,名称必须唯一:指定行数,转换读取到指定行数的后一行,就停止读取剩余行集数据:指定信息内容,中止读取行集数据之后以步骤错误日志的形式显示在日志中:勾选之后会将中止之前的行集数据显示在日志中:勾选后,读取到Abort threshold中设置的中止记录值处中止该转换,并且行集数据将无法输出到流中。

2024-04-09 09:41:27 545

原创 kettle介绍-Step之Value Mapper

值映射步骤是将字符串值从一个值映射为另一个值。值映射步骤提供了一个简单的替代方法,在输入流中选中一个字段,通过字段值设置源值和目标值,再将映射值输出给后续步骤使用。如:值映射步骤可以和表输入步骤、表输出步骤一起使用,对表输入步骤中的字段值进行映射后,输出给表输出步骤插入到目标字段Step name:步骤的名称,在单一的转换中,名称必须唯一:下拉框选择输入步骤中需要值映射的字段名称,此项为必填。

2024-04-09 09:31:28 533

原创 kettle介绍-Step之Write to log

写日志步骤是将输入步骤的信息打印在日志窗口,供用户直接查看Step name:步骤的名称,在单一转换中,名称必须唯一。Log level:设置日志的显示级别。没有日志(Nothing):完成没有任何日志输出。错误日志(Error):只输出错误信息。最小日志(Minimal):只输出打开转换、开始执行转换、转换完成和错误信息。基本日志(Basic):每一个步骤执行完后输出一条统计信息,默认是基本日志。详细日志(Detailed):每一个步骤都会输出开始、结束等信息。

2024-04-07 14:57:49 845

原创 kettle介绍-Step之CSV Input

CSV 文件输入步骤主要用于将 CSV 格式的文本文件按照一定的格式输入至流中Step name:步骤的名称,在单一转换中,名称必须唯一Filename:指定输入 CSV 文件的名称,或通过单击右边的“浏览”按钮指定本地的 CSV 文件Delimiter:指定分隔列的符号,一般 csv 文本文件默认的是逗号。如图 所示,里面的逗号就是列分隔符Enclosure:指定一个数据的封装符号,一般 csv 文本文件默认的是双引号。如图上图所示,双引号就是封闭符。

2024-04-07 14:44:07 757

原创 kettle介绍-Step之If field value is null

替换NULL值步骤可以将输入流中所有字段的空值进行替换,也可以指定一种类型下的空值进行替换,还可以指定一个字段下的空值进行替换三种替换NULL模式所有字段空值全部替换选定字段替换指定值根据数据类型替换指定值。

2024-04-03 15:49:01 593

原创 kettle介绍-Step之加密及解密

可生成Encrypted 2be98afc86aa7f2e4cb79ce10bec3fd89,即为123对应的kettle加密后的密码。linux/mac系统命令行执行:encr.sh -kettle 123。windows系统命令行执行:Encr.bat -kettle 123。进入kettle的安装目录。

2024-04-03 15:37:34 1138

原创 kette介绍-Step之Table output

忽略插入时发生的异常,有报错时整个转化就停止。此功能需谨慎使用,虽然错误日志能够记录20个以内的错误详情,但数据库的插入异常应当重视。这是一种灵活性更大的分区功能,避免上述只能支持按月、按天分区的局限性。:指定包含关键字的输出字段的字段名称。:指定字段跟数据库表字段的映射关系,当没勾选时根据字段名称进行自动配对。关系数据库都支持自增长字段,这些字段的值在插入数据库记录后,自动产生并。:激活时可以启用逻辑分区,也就是某个字段的值决定该行。激活条件下,性能更高。:如果激活,那么每一行数据插入的表名称由。

2024-04-03 13:23:17 877

原创 kette介绍-Step之Table input

可以随意写能运行的SQL,写在其中的SQL是在数据库环境中运行的,如果数据库压力不大建议将一些关联放到此处,可以减少取到服务器的数据。:设置从数据源中读取的最大行数。如果设置值≤0,那么将查询所有记录,不限制返回行数;如果设置正整数值,则返回行数不超过设置值。Table input用于将数据源的数据加载到Kettle转换中的行集,可以说是数。据从持久化到内存的一种加载变换,故名为输入。连接到数据源执行SQL语句,将返回结果解析为行集,传递给下一个步骤。:配合使用可以在前面设置一个取数据的,当做绑定变量。

2024-04-03 13:00:24 526

原创 kette介绍-Step之Merge Join

sql关联查询,INNER JOIN、LEFT JOIN、RIGHT JOIN、FULL JOIN

2024-04-03 11:41:23 830

原创 kettle介绍-参数变量

Transformation Step中的数据可以传递给Transformation Executor,在Transformation Executor 调用的组件中可以直接当变量使用:通过${VARIABLE}或者%%VARIABLE%% 使用;这个参数表示当前的实体保存的位置,比如在Job中使用,则表示Job保存的位置,Transformation中表示Transformation的位置。凡是带有方块图标的文本框中都可以通过${VARIABLE} %%VARIABLE%% 使用变量。

2024-04-02 14:36:46 3290

原创 kettle使用MD5加密增量获取接口数据

使用JavaScript组件进行MD5加密得到Http header,调用API接口增量获取接口数据,使用json input组件解析数据入库JOB包括获取增量时间点、记录日志、更新增量时间点、获取接口数据几个转换这里用到表输入组件,生成appKey、url、拼接request body、body以及增量时间、Http header等JSONPath是xpath在json的应用。类似于XPath在xml文档中的定位, JsonPath表达式通常是用来路径检索或设置Json的。

2024-04-02 12:58:55 2172

原创 kettle+report designer导出带样式的excel包含多个sheet页

pentaho report designer报表设计器使用可参考,kettle生成带有样式的excel,PDF等可参考,kettle生成多个sheet页可以参考,多个sheet页合并成一个excel文件可参考。读者个人qq:420773639。这里是自定义开发了一个合并sheet页的jar包,使用时只需指定路径就可合并路径下所有excel的文件到一个文件中,具体使用方法如图。生成一条常量数据即可,包括报表设计文件路径及文件名,传入报表参数,生成excel的路径及文件名,这里也可建立配置表,在表中控制。

2023-12-11 10:59:52 953 1

原创 greenplum索引介绍

greenplum索引分类及适用场景Greenplum数据库数据库支持Postgres索引类型B-树和GiST,不支持Hash和GIN索引。每一种索引类型都使用一种不同的算法,它们最适合的查询类型也不同。B-树索引适合于最常见的情况并且是默认的索引类型1.btree索引:B树索引是现在数据库中最常见的索引类型之一,它适用范围比较广:1.适于拥有重复值较少的字段。数据重复值越少,查询数据选择性越高,使用索引查询数据的效率越高,反之则越低。2.适用于对字段所在数据有少量修改的场合,例如字段有较少量的插

2020-06-28 15:52:49 1104 1

原创 Greenplum表存储模型选择

Greenplum表存储模型选择前言:堆存储:AO表:行存:列存:查看表的存储结构:前言:Greenplum数据库支持多种存储模型和一种混合存储模型。当用户创建一个表时,用户会选择如何存储它的数据。本文主要解释表存储的选项以及如何为用户的负载选择最好的存储模型,Greenplum支持行存和列存,支持堆表和AO表。堆存储:1.堆表的原理:堆表实际上就是PG的堆存储,堆表的所有变更都会产生REDO,可以实现时间点恢复。但是堆表不能实现逻辑增量备份(因为表的任意一个数据块都有可能变更,不方便通过堆存储来

2020-06-23 16:43:10 908

原创 kettle导出Excel文件报磁盘空间爆满处理方法

在导入导出数据到excel会在服务器生成.xml文件导致磁盘空间爆满kettle运行过程:查看磁盘使用情况:df -h发现磁盘空间爆满导致kettle过程报错,报错信息如下:解决办法:cd /tmplsrm -rf *.xml再次查看磁盘使用情况df -h问题解决,记录一下,生成的文件路径。...

2020-04-22 14:08:30 1188 1

原创 kettle使用gpfdist加载数据报错解决方法

1.gpfdist的使用gpfdist可以实现并行加载,需要先启动gpfdist进程及监听端口,这个命令在Master和Segment节点的GPHOME/bin目录下,如果配置了GP的环境变量,可以直接使用,如果在没有安装GP的服务器上使用gpfdist工具,只需要将gpfdist命令的文件拷贝到相应的服务器上即可使用。2.启动gpfdist服务nohup /home/gpadmin/gre...

2020-04-09 14:04:16 1175 1

DPDI online 部署系统配置表建表脚本

DPDI online 部署系统配置表建表脚本

2024-08-08

再谈kettle两种循环之-调用http分页接口循环获取数据

循环job可参考,变量运用可参考,调用http分页接口循环获取数据可参考,生成连续记录可参考,MD5加密可参考

2024-06-26

kettle各版本下载链接

包含kettle版本3.2,5.2,6.0,6.1,7.0,7.1,8.0,8.2,9.0,9.2,9.3

2024-06-25

Debezium配置说明

kettle运用CDC实时,增量同步mysql数据,Debezium配置介绍说明

2024-06-14

kettle Debezium插件

实时同步插件Debezium is a set of distributed services to capture changes in your databases so that your applications can see those changes and respond to them. Debezium records all row-level changes within each database table in a change event stream, and applications simply read these streams to see the change events in the same order in which they occurred.

2024-06-14

XXL-JOB资源文件

​ xxl-job是一个分布式的任务调度平台,其核心设计目标是:学习简单、开发迅速、轻量级、易扩展,现在已经开放源代码并接入多家公司的线上产品线,开箱即用。xxl是xxl-job的开发者大众点评的许雪里名称的拼音开头 apache-maven-3.8.5-bin.tar.gz jdk-8u211-linux-x64.tar.gz xxl-job-2.3.0.tar.gz 小白部署资源

2024-06-04

mariadb驱动,kettle连接mariadb驱动

mariadb驱动

2024-05-16

kettle实现SQL关联查询

kettle介绍-Step之Merge Join实现SQL关联查询,可实现INNER JOIN、LEFT JOIN、RIGHT JOIN、FULL JOIN

2024-04-03

kettle另一种简单的循环方式

kettle循环从oracle源表分页读数据,写入oracle目标表。希望能对你做分页插入有所帮助!!!

2019-12-12

jdk_8.0.1310.11_64.rar

kettle安装环境,JDK配置文件,JRE配置文件。kettle运行环境搭建。

2019-10-30

kettle最新资料.rar

kettle进阶培训-参数 7天学会kettle kettle最新介绍 希望能帮到您。

2019-10-10

kettle连接需要的jar包.rar

kettle连接需要的jar包,包含mysql sqlserver greenplum oracle mongodb cassandra等常用数据库jar,希望能帮到您!

2019-10-10

Greenplum_gpload.ktr

kettle Greenplum批量加载-Greenplum Load,greenplum快速加载案例

2019-10-10

kettle oracle批量加载-Oracle Bulk Loader

kettle快速加载到oracle之oracle批量加载-Oracle Bulk Loader

2019-09-19

通过id自增做增量加载.rar

kettle通过自增id做增量加载,适用于有自增主键的增量加载

2019-09-12

ETL安装部署手册.docx

ETL服务器安装手册

2019-08-15

kettle循环导出数据到excel生成多个sheet页

根据不同的省份生成多个execl,每个execl中根据不同的年份生成不同的sheet页

2019-08-08

服务器配置信息查询

服务器配置信息查询, 服务器型号 .操作系统 查看CPU统计信息

2018-11-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除