
数据同步
文章平均质量分 87
nifi
DATA数据猿
路漫漫其修远兮,吾将上下而求索。
探索学习中的一枚数据猿,希望得到你的指点。
展开
-
《数据同步-NIFI系列》Nifi配置UpdateAttribute实现字符串时间戳转日期
在这里我们可以发现ExectedDeliveryTime在数据库中是日期类型,但是查询出来在Nifi中显示的却是时间戳。这样直接插入数据库是肯定不能成功的。使用UpdateAttribname,先使用toNumber转为数值类型,再使用toDate转为日期类型,再使用format格式化原创 2023-08-06 17:05:35 · 1752 阅读 · 0 评论 -
《数据同步-NIFI系列》Nifi配置DBCPConnectionPool连接SQL Server数据库
主要介绍以下五个必填参数Database Connection URL:配置连接数据库的URLDatabase Driver Class Name:配置连接数据库需要的DriverDatabase Driver Location(s):配置连接数据库需要的驱动配置文件Database User:配置连接数据库的用户名Password:配置连接数据库的密码。原创 2023-07-31 21:06:20 · 1999 阅读 · 0 评论 -
《数据同步-DataX》业务日志采集工具DataX详细入门介绍
Github官方网址:https://github.com/alibaba/DataX。原创 2021-05-26 12:27:57 · 1882 阅读 · 5 评论 -
《数据同步-Flume》Flume数据采集、Flume拦截器快速入门
frp穿透获取数据,通过分割脚本,将采集到的数据分割到指定的文件夹,然后由flume采集到hdfs,本次介绍的拦截器是设置flume中。主要实现功能是对flume接收到的json数据进行base解码,并传回给flume,由flume再次上传到hdfs。原创 2021-05-25 20:19:54 · 444 阅读 · 1 评论 -
《数据同步-Maxwell系列》maxwell订阅MySQL的binlog日志并生产到Kafka传输数据
2.Canal只能抓取最新数据,对已存在的历史数据没有办法处理。Maxwell提供一个bootstrap功能,可以直接引导出完整的历史数据用于初始化。1.Canal有server+client模式,Maxwell只有一个server把数据发送到消息队列或redis。4.Canal在server+client模式下,可以自定义数据格式。3.Maxwell不支持HA,需要自行开发。但支持断电还原,即错误解决后重启继续上次位置读取数据。6.Maxwell需要在数据库中建立Maxwell库。原创 2022-01-13 12:08:55 · 2129 阅读 · 5 评论 -
《数据同步-Sqoop系列》Sqoop详细入门教程
开源工具用于hadoop(hive)与传统数据库之间数据的导入导出输入:Mysql、Oracle、DB2等关系数据数据导入到Hadoop输出:从Hadoop的数据导出到Mysql、Oracle等等。原创 2021-07-26 12:18:06 · 1048 阅读 · 2 评论 -
《数据同步-NIFI系列》NIFI同步API接口数据
通过NIFI同步工具,从API接口中获取指定数据,并同步到MySQL数据库。原创 2022-08-22 21:45:17 · 3144 阅读 · 2 评论 -
《数据同步-NIFI系列》Nifi详细教程入门-01概念
Nifi的设计是可集群、可横向扩展的。数据流的处理逻辑和过程可能非常复杂,而通过可视化的流程可以很大的帮助用户降低复杂度,并且可以较为明确的了解哪个地方需要简化。进程组里是一组特定的流程和连接,可以通过输入端口接收数据并通过输出端口发送数据,这样我们在进程组里简单的组合组件,就可以得到一个全新功能的组件(Process Group)。Nifi支持缓冲所有排队的数据,以及在这些队列达到指定限制的时候提供背压能力(背压对象阈值和背压数据大小阈值),或在数据达到指定期限(其值已经失效)时丢弃数据的能力。原创 2022-09-14 19:13:07 · 4825 阅读 · 0 评论 -
《数据同步-NIFI系列》GetFTP功能介绍,FTP服务器数据采集
1.GetFTP功能介绍2.Nifi同步并解析FTP服务器Excel文件,并存储到数据库原创 2022-11-14 15:04:52 · 2050 阅读 · 0 评论 -
《数据同步-NIFI系列》GetFTP功能介绍
为true,也就是每次同步成功后,都会把FTP服务器上的源数据删除。如果Nifi部署的分布式集群的话,建议使用Primary node模式,否则每个节点都会从FTP服务器读取一次文件,造成数据重复。使用GetFTP Processor去FTP服务器中同步文件,通过修改GetFTP配置项,实现不同的功能。通过简单修改调度项,以及配置FTP服务器的基础信息后,就已经可以成功同步到数据文件。设置非递归搜索时,只能获取到根目录下的文件,而不能检索根目录文件里的其他文件。为true时,同步成功后,删除源数据文件;原创 2022-11-14 12:40:45 · 983 阅读 · 8 评论 -
《数据同步-NIFI系列》Nifi详细教程入门-05Nifi属性及基础操作
Nifi属性及基础操作原创 2022-09-30 19:10:32 · 2839 阅读 · 0 评论 -
《数据同步-NIFI系列》Nifi详细教程入门-04Nifi单节点、集群部署以及迁移
零主集群即每个节点都可以作为主节点执行任务,节点通过Zookeeper协调,首先Zookeeper会选择一个节点作为集群协调器,然后集群中所有节点都会像该节点发送心跳。如果集群协调器确定允许该节点加入,则将当前流提供给该节点,当节点的流配置版本与集群协调器的版本相同,则该节点可以加入集群,否则不能加入。:集群协调器是Nifi集群中的一个节点,由Zookeeper选举出,负责管理集群中允许执行任务的节点,并为新加入的节点提供最新的数据流量。当选择卸载节点后,该节点的流文件会重新平衡到活动中的其他节点。原创 2022-09-30 19:08:04 · 5919 阅读 · 0 评论 -
《数据同步-NIFI系列》NiFi同步中文表、中文字段名
整体流程使用七个组件,第一步通过ExecutSQL组件truncate目标表,第二步使用ExecuteSQLRecord组件查询源表数据( AvroRecordSetWriter写数据),第三步使用ConvertAvroToJSON组件将Avro数据转成JSON类型数据,第四步使用SplitJson将整个JSON切分成一条一条的JSON数据,第五步使用EvaluateJsonPath解析中文表的字段并将其映射为英文名,第六步使用ReplaceText获取上一步的参数并写成SQL语句。配置数据库连接密码。原创 2022-09-27 21:16:26 · 1634 阅读 · 2 评论 -
《数据同步-NIFI系列》Nifi详细教程入门-03处理器
根据元素的数量或FlowFiles内容的总大小(每个bin的最小和最大大小是用户指定的)并且还可以配置可选的Timeout属性,即FlowFiles等待其bin变为配置的上限值最大时间。ListHDFS / FetchHDFS:ListHDFS监视HDFS中用户指定的目录,并发出一个FlowFile,其中包含它遇到的每个文件的文件名。然后可以在集群中,将其发送到FetchHDFS处理器,后者获取这些文件的实际内容并发出包含从HDFS获取的内容的FlowFiles。这里主要是入门操作,看的多了反而觉得杂乱。原创 2022-09-15 18:50:24 · 2188 阅读 · 0 评论 -
《数据同步-NIFI系列》Nifi详细教程入门-02部署与入门
第四个是process group,相当于系统中的文件夹,可以在组中嵌套组,合理的规划,可以使得整体页面简洁、可读性高。在操作区选择上传模板,通过搜索本地模板的xml文件,UPLOAD即可,后续就跟正常的使用模板一样的操作。第七个是template,通过创建模板,可以在这里使用历史创建的模板,便捷的处理相同场景的问题。: 模板创建好后,通过拖动导航栏的template,可以选择历史创建的模板,ADD即可。稍后会做专门的介绍。2.下载需要的模板到本地,下载为xml文件,也可以将xml文件提供给他人使用。原创 2022-09-15 18:27:34 · 2584 阅读 · 2 评论