- 博客(19)
- 收藏
- 关注
原创 flinkCDC3.0,mysql source字段类型转换,TINYINT(1)转化为boolean
最近在尝试flinkCDC3.0的pipeline功能同步数据至doris以备实时数仓的开发,总结几点,新功能很方便,通过配置文件的方式可以采集多个表,不用单独写一个一个的flinkSQL配置,而且可以动态监控表创建、字段变更、数据变更等,非常的方便。美中不足的是目前不支持application方式提交,且检查点重启配置,任务执行日志监控等相对于比较的模糊。2、找到flink-cdc-connect模块下的子模块flink-cdc-pipeline-connector-mysql,在Utils包下找到。
2024-12-12 20:45:41
506
原创 mysql建表语句转为hive建表语句,mysql ddl转为hive ddl
mysql建表语句转为hive建表语句,mysql ddl转为hive ddl
2023-08-04 18:51:03
600
1
原创 hive怎么通过explain查看数据倾斜,主要看哪些信息?
在 Hive 中,可以通过 EXPLAIN 命令查看查询语句的执行计划。如果查询语句中存在数据倾斜的情况,可以通过查看执行计划中的某些信息来判断数据倾斜的情况
2023-03-11 17:51:27
957
原创 Failed to execute goal org.scala-tools:maven-scala-plugin:2.15.2:compile (default)
Failed to execute goal org.scala-tools:maven-scala-plugin:2.15.2:compile (default) on project graduation: wrap: org.apache.commons.exec.ExecuteException: Process exited with an error: 1(Exit value: 1)
2023-01-16 00:14:08
897
原创 解决idea本地使用sparkSQL操作hdfs文件load命令不生效的情况,并对hive表库进行操作
解决idea本地使用sparkSQL操作hdfs文件load命令不生效的情况,并对hive表库进行操作
2023-01-12 14:37:29
532
原创 spring boot java项目整合Scala&Spark,接口api调用方式调用scala代码,配置分享
spring boot整合scala和spark
2023-01-10 19:38:04
2481
原创 SpringBoot整合hdfs,实现文件上传下载删除与批量删除,以及vue前端发送请求,实现前后端交互功能;
spring boot整合hdfs
2023-01-07 23:18:05
2255
1
原创 解决vue create 创建项目只有两个文件
本人学习node和vue准备做大数据毕业设计,中途下载vue后使用vue create aaa 命令创建一个项目时,发现只有两个文件,我花了很多时间去查资料找博文,最终发现是和的我windows下的hadoop安装包冲突了,导致yarn命令发现异常。2.修改C:\Users\你的电脑用户名 下的.vuerc文件,把"packageManager": "yarn"这一行数据里面的yarn替换成npm,由此解决。1.删除hadoop的安装路径,删除hadoop的所有环境变量信息。
2022-12-30 23:42:21
1186
3
原创 hive开窗函数,排名函数的坑
今天碰到一个小bug,虽然说不是非常严重,但是也花了一点时间来排查。当我们用hive的rank()或者row_number()函数的时候,一般会根据里面的某个唯一列(例如user_id)进行分区,然后order by他的某个时间字段(例如update_time),比如我们需要求某个用户每天登陆的最后登录时间,登录表里面用户可能有多条登录信息,那么我们可能要把数据清洗去重,得到登录时间最晚的那一条记录,此时可以用到开窗函数,整体的写法为:row_number() over(partition by user_
2022-11-11 22:07:33
895
原创 java中final、finally、finalize的区别?
1.final是修饰符关键字,用来修饰类,属性和方法修饰类的时候表示这个类不能被继承;修饰属性的时候表示这个属性不能被修改,且必须要有初始值,被引用时也不能被修改,即常量;修饰方法时表示该方法不能被重写。2.finally是try..catch方法中最终需要执行的代码块标识,这就意味着程序无论正常执行还是发生异常,这里的代码只要JVM不关闭都能执行,可以将释放外部资源的代码写在finally块中3.finalize,Object超类中的方法,垃圾回收器中在销毁对象时调用的一个方法,通过重写fin
2022-05-25 19:52:04
579
原创 zookeeper的选举机制(五台节点)
☆:节点一到节点五的myid分别是1,2,3,4,5zookeeper对leader的选举往往分为两个方面,细分的话可以分为三个方面第一个是zookeeper集群第一次启动,另一种是非第一次启动,而非第一次启动又分为leader存活状态和非存活状态。一、第一次启动选举zookeeper特点是,只要节点有半数以上存活就能正常工作,因此其选举机制达到半数就能选出leader。选取机制:1.当第一台节点启动之后,该节点首先投自己一个选票,然后把总票数与节点数(5)的一半(2.5)作对比,此
2022-05-25 16:10:57
1418
2
原创 HDFS知识点梳理
一、定义hdfs是hadoop生态中用来存取海量大数据的分布式的文件存储系统,通过目录树来定位文件.二、适用场景适合一次写入,多次读出的场景,不支持修改,但是支持append操作。适合大数据分析工作,但是步骤繁琐,不适合用来当网盘使用,且不适用于小文件过多的场景☆三、优缺点优点:1.高容错,2.适合大数据,3.可构建于廉价机器缺点:1.不适用于低延迟的场景(毫秒级),2.无法高效的对小文件进行操作,3.只支持写入,不支持修改,但是支持追加。四、hdfs中client的作用1.
2022-05-22 17:56:42
1354
原创 数据库中DML,DDL,DCL,DQL指的是什么意思
1).DML(data manipulation language): DML用来对数据库里的数据进行操作的语言,;例如SELECT、UPDATE、INSERT、DELETE2).DDL(data definition language):DDL主要是用在定义或改变表(TABLE)的结构,数据类型,表之间的链接和约束等初始化工作上,他们大多在建立表时使用,主要的命令有CREATE、ALTER、DROP、TRUNCATE等3).DCL(Data Control Langua...
2022-02-22 23:06:17
19685
7
原创 HBase架构原理(看之前请先了解HBase数据模型)
HBase整个架构与大数据学习生态圈一样以hadoop的HDFS文件系统为基底,通过zookeeper集群的协调建立.而集群又有自己的HMaster和HRegionServer.通过三个框架协调架构运行.1.hadoop Datanode存储region server所管理的真实的数据,如果是虚拟机集群,则真实存在集群磁盘里面.所有的hbase数据都存在hdfs中.而hadoop的NameNode维护了物理数据块的metadata2.zookeeper集群作为分布式协调框架,zookee..
2022-02-22 22:53:15
2495
原创 shell脚本运行没反应
当我们自己编写linux脚本shell文件时间,代码写的没有问题,但是怎么运行都没,那么我们只需要在shell代码的运行代码最前面更新一下主机的环境变量 source /etc
2022-02-17 21:05:27
5194
12
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人