添柴程序猿
10年编程工作,涉及到.Net,Java,Android,C,Python等,爱好算法,人工智能,大数据等领域, 虚心求教,一起进步,大学毕业参加工作,如今一晃10多年已过,时间飞逝....
展开
-
ARM架构linux系统_hadoop-3.3.6_集成hbase-2.4.11_版本兼容问题_ServerNotRunningYetException---大数据之Hadoop3.x工作笔记0185
可以看到我先启动zookeeper集群,然后再去启动hadoop集群,然后再去启动hbase集群.再去 重启一下 hbase 发现可以了,如果,关闭hbase,无法关闭,kill进程就可以了.1.按照网上提供的方法,说之前可能hadoop没有正常关闭,那么。执行这个命令,离开hadoop的安全模式就可以了,这个没有起作用。最近发现在arm系统上搭建的hadoop集群,出现了问题,启动hbase以后,连接hbase的时候报错,具体错误看下面。2.在hbase的对应的配置文件中,添加上一些配置。原创 2025-01-09 11:08:44 · 58 阅读 · 0 评论 -
Hudi数据湖_Spark通过Shell在hudi中upsert更新数据_时间旅行查询_增量查询---大数据之Hudi数据湖工作笔记0014
可以看到现在就查询到了最新的数据对吧,而且旧的数据也查询到了,新的数据也有了,可以看到这里的041057670就是新的数据对吧.生成的数据,是之前的数据,也就是record_keys和之前的数据是一样的.所以,是对以前数据的更新。tripsSnapshotDF1,这里加个1,可以看到,然后,再去加载一下最新的数据。然后我们再去select查询数据,可以看到查询的数据,还是之前的对吧。可以看到这里的提交时间对吧,有旧的,有新的,都查询出来了,然后。因为我们用的df,之前还是旧的,那么我们这里再去,生成一个。原创 2024-12-29 13:00:00 · 86 阅读 · 0 评论 -
Hudi数据湖_Spark通过Shell从hudi中查询数据_scala查询脚本_时间旅行查询_parquet文件命名规则和源码查看---大数据之Hudi数据湖工作笔记0013
这里a636e7f8-ebaf-44c1-b560-b8711e7313d8-0 是文件的fileID,我们说有文件组,然后有文件片,然后文件对把,文件有文件id。然后这里的basePath这里一定要注意,因为我们开启了,多级分区,所以,如果hudi用的是0.9.0之前的版本,那么这里的basePath需要,把。数据查询,可以看到这里,支持后面写hudi,还是因为我们配置了,hudi中的对spark支持的jar到spark中。可以看到这个代码的作用就是,去对应的path,去load数据,然后创建。原创 2024-12-29 09:00:00 · 78 阅读 · 0 评论 -
Hudi数据湖_Spark通过Shell插入数据到Hudi_Scala测试数据生成_使用scala利用Spark向hudi中插入数据---大数据之Hudi数据湖工作笔记0012
就是重复数据,但是他们的ts,不一样,时间戳不一样,对吧,这里就指定了PRECOMBINE_FIELD_OPT_KEY 就是指定了ts这个字段,这个字段。然后上面的那个PRECOMBINE_FIELD_OPT_KEY预聚合配置,其实就是配置了,比如当,我们有两个数据,他们的主键都是1,内容也一样,那么。就是时间戳字段,他就会取,ts最大的,也就是最新的那个时间.做为判断标准. 这个就是PRECOMBINE_FIELD_OPT_KEY 预聚合的意思。原创 2024-12-28 13:00:00 · 99 阅读 · 4 评论 -
Hudi数据湖_数据写_非分区表_key生成和删除策略_数据读与Compaction原理_集成Spark环境准备和启动Shell_Spark操作hudi配置---大数据之Hudi数据湖工作笔记0011
2.对于COW表进行的upsert的时候,有.parquet文件的时候,会先读取日志文件,然后创建索引,然后再去读取.parquet文件,这样就把日志文件中的数据和原来的.parquet中的数据进行合并,然后把合并的数据写入到.新的.parquet文件中,这样就完成了compaction合并。1.如果是COW表进行的insert的时候,并且没有.parquet文件的时候,就是还没有生成要插入数据的.parquet文件的时候,会直接合并所有的日志文件,并写入到.parquet文件中。这个操作不是物理删除。原创 2024-12-28 09:00:00 · 94 阅读 · 0 评论 -
Hudi数据湖_数据写原理_COW和MOR表Upsert原理_Flink和Spark写入区别_Insert和Overwrit原理---大数据之Hudi数据湖工作笔记0010
对于Apache Flink与Apache Hudi的集成,Flink在处理Merge on Read (MOR)表的upsert操作时,确实有一些不同的行为和优化,允许在日志文件(delta files)上建立索引。在Flink中,数据是以流的形式处理的,这意味着即使是在MOR模式下,数据也是实时地被处理和更新的。总之,Flink与Hudi的集成在设计上考虑了流处理的特点,因此在处理MOR表的upsert操作时,允许在日志文件上建立索引,以提高处理效率和数据的一致性。原创 2024-12-27 11:09:43 · 364 阅读 · 0 评论 -
单机快速部署使用OceanBase数据库_使用DBeaver/Navicat连接管理---大数据之国产数据库_OceanBase数据库011
这样就可以直接应用到项目中了,而且什么都不用修改.非常方便,因为是兼容mysql协议的,太棒了.我使用的是centos7.9的系统安装的,非常顺利,之前看博客中其他人装的时候碰到了很多问题,应该是低版本的原因,高版本这些全部已经修复,实现了真正的一键部署安装.1.配置系统前提条件,跟着去操作,最后重启一遍系统.然后直接去执行obd demo 然后等待就可以了.然后再去执行安装 解压以后进入bin文件夹.连接的时候,用的2883是代理客户端,然后。可以看到很顺利,一次成功.单机部署的,可以看到是.原创 2024-12-25 09:00:00 · 200 阅读 · 0 评论 -
大数据之信创MySQL替代_国产数据库_OceanBase数据库008_通过白屏部署的方式快速搭建OceanBase集群002
然后就是配置obproxy_sys_password这个让他自己生成也可以自己配置也可以.然后关于更多的配置,其实就是之前我们通过,配置文件配置的,各种配置内容了.然后我们点击完成就可以,看起来使用白屏部署方便,其实,一次无法安装成功。可以看到在obproxy-ce这里配置,看之前的内容去配置就可以了.可以看到这个是2883,通过obproxy进行的连接,我们去试试。然后还有其他的端口也默认就可以了,也可以根据需要修改.然后等到最后,显示,部署失败了. 可以看到显示失败.原创 2024-12-12 09:00:00 · 237 阅读 · 0 评论 -
大数据之信创MySQL替代_国产数据库_OceanBase数据库003_在centos7.9上_安装部署OceanBase003_OBProxy连接不上解决_设置代理用户密码_root用户密码
重新加载了以后,然后再去,首先使用直接连接OceanBase,用2881端口试试。这里可以看到用的是2881端口,这个意思是连接本地的OceanBase数据库。可以看到之前的报错就是因为,proxyro我们没有这个用户,并且他的密码和。odp配置中的observer_sys_password密码是一样的才行。这里的前面的-uroot 这个root是用户名,然后。proxyro用户存在,并且,这个用户的密码,和。我们使用2883端口,也就是代理的方式去连接。这里添加的位置不对,这里要注意,一会修改.原创 2024-12-10 10:59:24 · 318 阅读 · 0 评论 -
大数据平台集群部署报错_datax-admin服务连续打印错误日志_Datax连接Mysql报错_由于jdbc连接字符串导致_记录028---大数据工作笔记0188
我们做了测试.在mysql 5.7.35 中是有问题的 在mysql 5.7.35-log版本中就没问题。1.本次部署的时候发现,datax-admin服务中的日志,不停的打错误日志,导致日志体积迅速变大.这个链接地址主要是两个地方有问题,1.useSSL=true 需要修改成 useSSL=false。在这里添加上配置在seata-server.properties这个文件中进行配置.可以看到,提示说,可能IP 端口 用户名 密码错了,实际上这些都没有错误。添加上这个配置就可以了.原创 2024-08-20 16:56:44 · 205 阅读 · 0 评论 -
大数据平台集群部署报错_hostname修改不重启导致_hbase无法启动_8080端口和zookeeper占用的8080端口冲突_jar包启动很慢_记录027---大数据工作笔记0187
在部署大数据平台hbase集群的时候,本次发现两个问题,需要记录,以后部署的是,要注意.1.由于系统修改了hostname. vim /etc/hosts 文件.这里原来是host5 改成了hadoop2531,这种情况下要注意.必须重启,如果不重启,那么,hbase集群,启动的时候就会报错,找不到对应的地址了就.一定要保证:这里变成了,对应设置的主机名以后,再去配置启动hbase.2.上面的问题解决以后,启动zookeeper集群,然后启动zookeeper集群以后,然后再去启动hbase,发现也启动不起原创 2024-08-17 14:51:27 · 179 阅读 · 0 评论 -
phoenix连接hbase报错Can not resolve hadoop120, please check your network_记录026---大数据工作笔记0187
其实做法跟这个博文中写的一样,其实就是删除原来的/hbase的配置,然后,重新启动hbase注册到zookeeper就可以了。然后再去先关闭hbase /data/module/hbase-2.4.11/bin/stop-hbase.sh。重新去开启,首先开启zookeeper,然后再去开启hadoop,然后再去启动hbase,然后再去连接看看。我查询了,hadoop的安装目录,hbase的安装目录,zookeeper的安装目录,都没有查询到.那么,hadoop120是在哪个地方呢?原创 2024-08-05 17:30:40 · 395 阅读 · 0 评论 -
使用NIFI连接瀚高数据库_并从RestFul的HTTP接口中获取数据局_同步到瀚高数据库中---大数据之Nifi工作笔记0067
请求,可以看到这个时候就需要首先,在上层,去连接一个GenerateFlowFile这个处理器,数据从这里流过以后,估计还是有问题,应该是CustomText,写入了json,然后需要用表达式提取里面的内容把,后面有了进展会写在这里。然后还可以用InvokeHTTP处理器来进行,获取get或者post,或者put,或者delete。其实,只要配置好了链接的,连接字符串,和驱动,任何支持JDBC的数据库都可以连接的.然后,去更新值,继续获取数据,是这个思路,后面实现了会补充上.原创 2024-07-16 10:04:08 · 332 阅读 · 0 评论 -
纯手动搭建大数据集群架构_记录024_集群共享大数据盘挂载挂盘_三台机器共享大数据盘的不同文件夹_麒麟v10_arm架构_开启系统联网---大数据之Hadoop3.x工作笔记0184
我们是在dashujupan04目录下,创建了hadoop目录,然后下面又创建了hadoop158目录,我们把这个目录挂载到本机的/data目录上。上节说了,大数据部署的时候,对方提供了三台机器,但是三台机器自身的系统盘都非常小,没办法在上面安装,我们的软件和中间件.这样就可以了,这样就相当于,我们三台机器,每台机器中都有个data目录,然后这个data目录,其实是对应着,同一块硬盘.然后我们再来看看,如果我们的机器,不能联网的话,有可能是本身系统是可以联网的。可以看到,这样就可以了。所以我们去配置一下.原创 2024-06-13 16:39:32 · 71 阅读 · 0 评论 -
纯手动搭建大数据集群架构_记录023_麒麟系统v10_ARM架构集群搭建02_ARM架构hadoop-3.3.6安装_安装Hbase_zookeeper---大数据之Hadoop3.x工作笔记0183
而zookeeper是用java编写的,所以只要java,安装了arm架构的,那么,zookeeper是不区分平台架构的.由于,上面搭建完以后,我们用的是之前x86架构的hadoop所以,一直报错namenode 起不来,报错。打开以后然后去搜索apache,然后找到hadoop,然后找到aarch64架构的hadoop,然后下载。下载以后,然后上传到服务器,去解压,然后跟之前安装hadoop一样的.再去,按照上面的配置,然后再去看hbase的安装,hbase的安装,需要先安装zookeeper。原创 2024-06-13 09:21:45 · 286 阅读 · 0 评论 -
纯手动搭建大数据集群架构_记录022_麒麟系统v10_ARM架构集群搭建01_ARM架构jdk安装_集群架构_NameNode is stilling---大数据之Hadoop3.x工作笔记0182
最近客户给了个集群,三台机器,但是,却是ARM架构的,第一次安装arm架构的机器,对于软件,有一定的要求,这个过程中,主要是.我打算把,hadoop,每个机器,安装到对应的文件夹中去.那么这个时候,配置hadoop的etc/hadoop文件夹中的。这个位置,其实就是安装的openjdk. 这里要注意openjdk是有问题的, 他默认安装上了,但是没有清晰的指定。并且要指出的是,这三台机器,自身的硬盘都很小,只有一块9.8T的盘,但是这三台机器都挂到这个盘上面去了。原创 2024-06-12 16:47:48 · 262 阅读 · 0 评论 -
纯手动搭建大数据集群架构_记录021_麒麟系统v10版_x86/64架构安装hadoop集群_修改SSH端口号_调整脚本端口---大数据之Hadoop3.x工作笔记0181
如果是arm架构的系统,就需要安装arm架构的java,jdk,对应的hadoop应该也需要arm架构的,这个。hadoop集群,那么这时候,还是有些地方需要修改的,大部分,跟之前使用centos,去安装。hadoop集群没有区别,直接参考以前的博文就可以了,并且,有区别的地方,已经在。但是这一次,安装的时候,ssh端口不是默认的22,给改成了22022了,这个时候。首先,如果想要修改ssh的端口,可以看到按照上面这样修改就可以了,然后。还没有尝试,尝试以后,给大家说.对应的博文中,记录了.原创 2024-05-31 11:50:05 · 360 阅读 · 0 评论 -
使用Datax自定义采集组件Reader/Writer实现国产数据库支持以及_Datax数据清洗/过滤规则功能自定义---大数据之DataX工作笔记007
我们基于datax来做的自己的数据采集系统,现在基本的数据采集已经实现了,也就是调用datax的数据采集能力,实现在已支持的数据库之间同步数据.我们是基于datax-web实现的,里面都有开源的代码了,可以分析以后拿过来用,这个过程并不复杂,而且,结合xxljob的web那个开源项目,也可以让datax和定时任务结合起来,思路是这样的,而且实现也不复杂,小同事去做的就搞定了.然后再去使用的时候,记得,在之前的datax脚本中,添加上,上面的脚本就可以了。在这个文件中,可以看到这里进行了初始化的操作,原创 2024-04-08 13:52:05 · 794 阅读 · 0 评论 -
Nifi同步过程中报错create_time字段找不到_实际目标表和源表中没有这个字段---大数据之Nifi工作笔记0066
2.如果上面的办法不行,那么需要,把源表和目标表,使用Navicat的,数据同步工具,让他自动同步一遍,然后再用nifi同步,这样是因为,同步的时候,会自动把原来的maysql中的目标表,删除掉,然后重新创建这个表,有可能之前的目标表有隐藏的create_time这一列.这里其实就是重新创建表以后再试.报错的内容是说,目标表中有个create_time字段,这个字段是必填的,但是传过来的flowfile文件中,的数据没有这个create_time这个字段.所以就报错了.这里我用第一个办法就解决了.原创 2024-04-07 11:03:50 · 159 阅读 · 0 评论 -
NIFI从Oracle11G同步数据到Mysql_亲测可用_解决数据重复_数据跟源表不一致的问题---大数据之Nifi工作笔记0065
然后这个RouteOnAttribute处理器,连接到其他处理器的时候,选择路由策略,选择刚刚我们配置的路由策略就可以了.${db.table.fullname} 才是对的,这个的内容是TEST1.A这样带着schema,才能查询成功.可以看到这里的,我们让同步这两个表,上面是路由出需要同步的表,这个RouteOnAttribute处理器的配置。其他的处理器的配置按照之前的配置就可以,之前的NIFI的博文都已经,说了如何使用了,这里不做说明.同步的时候,总是出现重复的数据,奇怪.原创 2024-03-08 09:26:37 · 398 阅读 · 1 评论 -
Hbase-2.4.11_hadoop-3.1.3集群_大数据集群_SSH修改默认端口22为其他端口---记录025_大数据工作笔记0185
在以下目录中:/opt/module/hadoop-3.1.3/bin/myhadoop.sh。需要修改/opt/module/hbase-2.4.11/conf/hbase-env.sh。在以下目录中:/opt/module/hadoop-3.1.3/bin/kfk.sh。在以下目录中:/opt/module/hadoop-3.1.3/bin/xsync。在以下目录中:/opt/module/hadoop-3.1.3/bin/zk.sh。中,找到对应的hadoop-env.sh文件。原创 2024-01-29 18:40:23 · 703 阅读 · 0 评论 -
phoenix启动失败_The history file `/root/.sqlline/history` may be an older history---记录024_大数据工作笔记0184
可以看到我们执行phoenix-hbase-2.4.5-5.1.2/bin/sqlline.py hadoop15,hadoop16,hadoop17:2181。报错了,说对应的/root/.sqlline/history这个文件存在,让我们删除。我们进入到root目录,执行删除 rm -rf .sqlline/quit来退出phoenix,退出以后,然后。然后我们再去执行,可以看到现在可以了,正常了。可以看到详细错误内容。原创 2023-12-11 22:45:05 · 185 阅读 · 0 评论 -
hadoop集群群起脚本失败_ssh执行/stop-dfs.sh报错JAVA_HOME is not set and could not be found---记录023_大数据工作笔记0183
这个是/opt/module/hadoop-3.1.3/bin/myhadoop.sh的内容。部署完集群以后,执行 myhadoop.sh的时候报错了。然后: vim ./.bashrc。这句的时候就发现报错了;先走到根目录 cd ~其实这里添加上对应的。jdk的配置就可以了。原创 2023-12-09 10:35:08 · 324 阅读 · 0 评论 -
纯手动搭建大数据集群架构_记录020_大数据集群卸载_无法卸载_大数据集群进程无法关闭_关闭自动重启_ambari关闭---大数据之Hadoop3.x工作笔记0180
ps -aux |grep zookeeper 可以查看某个机器的具体信息可以根据名称,查看在什么位置。比如这些,太多了还有很多不认识的,当然,之前还有nodemanger这些,namenode等,不过。就发现这个HMaster进程,是kill -9 以后还是会自动启动,应该是做了高可用了,太麻烦了.然后我还找到对应的hbase hive Hadoop 等文件夹给他重命名了。ambari-agent stop 就可以了。现在已经被我使用kill - 9 杀死了,但是。原创 2023-12-07 10:32:25 · 75 阅读 · 0 评论 -
IceBerg数据湖_简介002_对比IceBerg和Hive_hive元数据查询慢导致iceberg的产生---大数据之_数据湖框架Apache Iceberg工作笔记0002
因为我们知道hive支持数据的分区,分区其实就是一个个的目录对吧,对应他在hdfs上的一个个的目录,比如我们要以一个小时为一个分区,那么,一天就有24个分区,也就是在hdfs上有24个目录,然后,如果一个月,一年呢?如果比如从mysql中我知道了我的数据在哪个目录了,下一步,就是从hdfs中,比如有8000个分区,就要从这8000个目录中一个个去扫描,去对比找到对应的分区,然后再去查找数据,速度很慢,因为这个问题,才自己要做iceberg。这样就大大提高了数据查询速度。原创 2023-10-08 20:22:50 · 297 阅读 · 0 评论 -
NIFI集群_内存溢出_CPU占用100%修复_GC overhead limit exceeded_NIFI: out of memory error ---大数据之Nifi工作笔记0017
java - Apache NiFi - OutOfMemory 错误 : GC overhead limit exceeded on SplitText processor。只要把队列设置的小一点,然后背压设置的个数,小一点,因为默认是10000个flowfile,然后。这个队列的设置太大了,所以需要设置,比如允许10个文件,1MB这样,这样就可以了,就不会出现。在使用nifi的时候出现,内存溢出的情况,会频繁出现内存溢出的情况.这种情况网上有很多种说法,其实有效的解决方法是设置背压,原创 2023-09-17 21:28:56 · 473 阅读 · 0 评论 -
Centos7.9下安装DataX3.0/2.0_详细安装过程_以及踩坑._drdsreader/plugin.json]不存在.检查您的配置文---大数据之DataX工作笔记001
您提供的配置文件[/opt/module/datax/plugin/reader/._drdsreader/plugin.json]不存在. 请检查您的配置文件。这样一执行可以看到再去看比如/opt/module/datax/plugin下面的reader文件夹和writer文件夹中就,都没有._开头的文件了都被删除掉了。首先我们执行 rm -rf /opt/module/datax/plugin/*/._*这个时候,我们去对应的plugin文件夹,把所有的._开头的文件都删除掉就可以了。原创 2023-06-29 11:31:56 · 494 阅读 · 0 评论 -
使用phoenix来编写sql来查询某个表的表结构---大数据之Hbase工作笔记0038
这种常用的东西在百度上搜了一下竟然搜不到...大大的不好啊..应该很常用啊.记录一下吧。奉上了,就是这个sql语句可以用来查询,某个表的表结构,原创 2023-06-01 15:15:50 · 578 阅读 · 0 评论 -
ClickHouse介绍_安装_准备工作_单机安装---大数据之ClickHouse数据库002
soft就是平时用的,类似于设置了一个值平时用这个数,然后hard是最大数,也就是比如文件数最大只能开hard的个数,然后类似数据库连接池,初始化是多少个连接,然后最大是多少个连接 就是这个意思。这里要知道安装以后他放到了/etc/clickhouse-client /etc/clickhouse-server。然后注意这里安装跟其他的不一样,其他的一般是解压tar.gz文件夹,放到某个位置,里面有bin。注意安装集群这里没有说,需要的话可以查一下,安装的话也是跟上面的安装单机差不多,但是。原创 2023-05-19 14:40:52 · 521 阅读 · 0 评论 -
ClickHouse介绍_特点_速度超快_数据分区_线程级并行_QPS相对低_LSM Tree_高吞吐写入能力_多样化引擎_适合对大数据宽表查询---大数据之ClickHouse数据库001
然后我们来看一下这个clickhouse他的更新的步骤,跟hbase类似,可以看到其实对于同一条数据他可能有多条,他有老的数据,有旧的数据,那么他们之间不一定是通过时间戳来进行区分,他还有几个标记,比如,有个版本号,这个版本号,大的就是最新的数据。然后再来看,他的数据分区,为了避免全表扫描,然后线程级并行,表示一个sql查询的sql,就可以占用整个cpu执行....快是很快,但是如果同时来了很多sql的话,他的并发能力,qps就没那么高了.这里clickhouse,做join的操作比较慢的原因是因为,原创 2023-05-19 13:47:22 · 178 阅读 · 0 评论 -
NIFI同步MySql数据源数据_到原始库hbase_同时对数据进行实时分析处理_同步到清洗库_实际操作06---大数据之Nifi工作笔记0046
可以看到,数据经过GenerateTableFetch处理器,获取分页sql,然后通过ExecuteSql处理器执行,获取数据以后,然后把数据从Avro格式转换成Json格式,使用ConvertAvroToJSON处理器,然后再把分页的多条数据,进行拆分SplitJson处理器,然后拆分后的一条条数据,可以走可以看到,往右走一条线是:把数据直接存入Hbase数据库中,使用PutHbaseJSON。这里先说一下需求,我们想把数据从不同的数据源取出来以后,当然这里是一个数据源,取出来以后,原创 2023-05-11 14:12:07 · 303 阅读 · 0 评论 -
phoenix无法连接hbase shell创建表失败_报错_PleaseHoldException: Master is initializing---记录020_大数据工作笔记0180
删除以后刷新可以看到没有了,然后再去关闭,hbase,关闭hadoop,然后关闭zk,然后再去重新启动,然后再去试试可以了不..好像知道怎么回事了,我用nifi,连接hbase,死活连不上,网上说,让加上 /hbase-unsecure之类的。今天发现,我的phoenix,去连接hbase集群,怎么也连不上了,奇怪了...弄了一晚上。好吧 ,还是在界面上删除吧,来这里,把那个hbase文件夹删,点击右边删除按钮就可以了.然后。先启动zk,然后再去启动hadoop,然后再去启动hbase。原创 2023-05-08 10:44:29 · 568 阅读 · 0 评论 -
Neo4j图数据库的数据模型_包括节点_属性_数据_关系---Neo4j图数据库工作笔记0002
可以看到ann 和dan的 关系 以及dan的熟悉 以及他们都有person标签。其实还有标签 标签就相当于表,比如person表,把 节点 都归为一类了。可以看到一个圈表示一个节点,然后两个节点直接可以有关系,关系可以是双向的。节点可以有一个或多格标签,可以有一个或多格属性 通过关系连接到其他节点。可以看到连接上以后,有标签,节点标签可以理解成一个个的表,然后。属性是键值对 节点和关系都可以包含属性。每个关系包含,开始节点和结束节点.点击关系也可以查看对应的关系。然后节点 标签 关系。原创 2023-05-05 13:55:08 · 673 阅读 · 0 评论 -
Neo4j图数据库的介绍_图数据库结构_节点_关系_属性_数据---Neo4j图数据库工作笔记0001
100万人,每个人有50个朋友,那么 这里深度是4的时候,关系型数据库就已经查询不出来了。其实就是用来,指定数据之间的关系,但是他这个更适合处理,数据之间的大规模的关系。可以对比一下关系数据库和图数据库,可以看到,当深度 是4的时候,就是。可以看到,在图数据库中,有person这个节点,有部门也是个节点。可以看到在图数据库中,关系型数据库中的表,对应图数据库中的图,在关系型数据库中有约束,在图数据库中没有, 但是有关系.关系型数据库中的行,对应图数据库中的节点,可以用图数据库和其他数据库做个对比。原创 2023-05-05 13:29:11 · 483 阅读 · 0 评论 -
NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_配置binlog_使用处理器抓取binlog数据_实际操作01---大数据之Nifi工作笔记0040
1.首先我这里重新安装了一个mysql8.0.33 ,安装的是windows版本的,如果你是linux版本的,这里也说一下,如何开启binlog功能,首先要开启binlog才行.我们基于之前做的从mysql中获取数据,然后同步数据到mysql中,基于这个案例来做,可以看到上面是,这个案例的所有处理器,我们基于这个来改造.从172.19.126.123的mysql8.0的数据库表userinfo中,实时的捕获增量数据,然后再实时的,导入到。执行一下可以进来....我的天,怎么回事 ,弄一天了,急了急了~原创 2023-04-27 21:26:33 · 835 阅读 · 0 评论 -
NIFI从PostGresql中离线读取数据再导入到MySql中_带有数据分页获取功能_不带分页不能用_NIFI资料太少了---大数据之Nifi工作笔记0039
然后再拖入一个splitjson处理器,把转换后的json数据,进行分割,如果是json数组的话会被分割成一条一条的。这里一定要注意的就是,这里,在postgresql中,写sql的时候要用,单引号,不要用双引号,用双引号执行报错。然后再去拖入一个replacetext处理器,用来把从json中提取的数据,替换到我们自己编写的sql语句中。可以看到执行处理器以后的数据,当然这里,可以看一下flowfile的,队列中的flowfile的属性.然后配置对应的url,驱动名称,驱动位置 ,数据库名称,密码。原创 2023-04-25 10:06:56 · 443 阅读 · 0 评论 -
大数据共享接口_如何在SpringBoot_RuoYi-Cloud-Plus-master中制作_动态生成的Restful接口_每个接口都有独立的_唯一的名称---SpringCloud工作笔记196
最近在做大数据共享的接口,需要在SpringBoot微服务框架中实现,接口共享数据,这要求,按照用户的数据需求来生成各种各样的数据接口.我们这时候,我们的后台肯定是没有这样一个接口的,那么如何让,前台请求这个接口的时候,还可以。当然这里主要是因为url是可以配置在代码中,可以用通配符的,其实还可以有各种的组合也是可以的.这样就可以了...这是一种思路,也已经实现了.没问题。等等都是通过界面勾选需要的数据以后,自动生成的.比如这样访问的时候就可以访问了,记得要把。原创 2023-04-24 14:28:01 · 377 阅读 · 0 评论 -
NIFI从MySql中离线读取数据再导入到MySql中_03_来吧用NIFI实现_数据分页获取功能---大数据之Nifi工作笔记0038
实际引用环境中,我们的一张mysql的表,可能有上千万的数据,那么,不可能,我们把sql查询语句写死,这样一次性如果获取所有数据,那么压力太大了,我们怎么弄呢?找了很久没有找到相关教程,自己做了测试,整理出来了.querydatabasetable处理器删除掉了,对,因为querydatabasetable,不支持分页,所以我们删除掉了,除了替换掉了,这两个处理器,其他的。内容分别是这3条sql对吧,可以看到这个处理器,已经根据我们的要求,给我们自动生成了分页的sql了,然后,我们再去把,这些sql,原创 2023-04-20 19:43:55 · 1054 阅读 · 2 评论 -
NIFI从MySql中离线读取数据再导入到MySql中_无分页功能_02_转换数据_分割数据_提取JSON数据_替换拼接SQL_添加分页---大数据之Nifi工作笔记0037
select id,name,mobile,son_json from user_info_nifi limit 0,2 这里注意,我们漏下了email,没有取,所以后面,没有取出来email是正常的。修改它的配置,属性这里,这个JSON container options这里设置成array,就是我们把多条数据,转换成json数组,如果传过来的是多条数据的话.我们再去启动evaluateJsonPath处理器去看看,可以看到,这个时候,出来的两个flowfile,就已经根据,我们上面对。原创 2023-04-20 17:15:00 · 354 阅读 · 0 评论 -
NIFI从MySql中离线读取数据再导入到MySql中_不带分页处理_01_QueryDatabaseTable获取数据_原0036---大数据之Nifi工作笔记0064
我们的sql语句起取了1条对吧,因为我们设置了run schedule,是3秒钟执行一次,所以这里出现了,一堆的数据,但是每个数据好像都是一样的.然后再看convertavrotojson处理器,拖拽过来一个,因为querydatabasetable处理器,查询过来的数据是avro格式的,然后我们设置querydatabasetable处理器的run schedule,大一点,因为这里去查询数据,查一次就可以了,因为我们的sql是写死的这里,所以,如果重复查的话,那么数据是重复的.原创 2023-04-20 15:55:01 · 839 阅读 · 0 评论