- 博客(63)
- 资源 (4)
- 收藏
- 关注
原创 k8s搭建 hive-metastore(iceberg,oss,mysql),kyuubi,spark-3.4.3(iceberg,oss),zookeeper使用阿里云存储桶(oss)
说明:使用iceberg作为湖的开放格式,好处可以兼容flink,spark,starrocks等不同计算引擎。作为对接客户端为了更好的执行业务开发人员的使用可以对接starrocks。在https://helm.sh/zh/docs/topics/version_skew/下载。1、说明这里的镜像文件为了支持阿里云oss都是重新打包镜像的,镜像链接会在文件中给出。2、使用到4台服务器,data4用作mysql搭建,和NFS搭建。4.5、查看可用的nfs地址。5、k8s使用helm安装。
2024-11-06 10:16:52
363
原创 解决flink cdc 时间相差8小时问题
说明:由于flink cdc底层使用的是debezium本质问题是debezium 使用的时区写死了UTC.如下图。2、直接修改debezium源码,重新打包。从根本上解决问题,经测试兼容mysql,PG 一下是我修改的源码。1、本次使用的是flink-sql-connector-mysql-cdc-3.1.1.jar 测试。如果各位时间不一样可以按照自己的方式修改。3、然后重新打包flink-cdc。
2024-10-12 18:29:33
777
原创 (mysql和pg) -> flink-cdc -> kafka -> flink-sql -> StarRocks
【代码】(mysql和pg) -> flink-cdc -> kafka -> flink-sql -> StarRocks。
2023-11-22 15:58:08
285
原创 MongoDB复杂聚合查询与java中MongoTemplate的api对应
MongoTemplate的API。MongoDB聚合json脚本。
2023-09-08 14:04:50
709
原创 使用redisson客户端java位移运算实现多条件排名
3.1、由于时间戳按照正序排序所以先提交的要拍前面,说明分数要大一些。1、使用条件说明,由于一个分区有大概1万学生按照答题分数进行实时排名。附加题分数最大支持 1111111 = 2 + 4 + 8 + 16 + 32 + 64 + 128。3.2、附加题由于数量有限制分数最大不操过50分,给其分配7位。第三步、如果附加题的分数还相等则按照提交答案的时间戳正序排序。第二步、如果分数相等按照附加题的分数排序。分数 + 附加题分数 + 时间戳。第一步、按照分数排序。
2023-07-06 18:26:49
312
原创 记一次cloudera删除/var/lib/cloudera-host-monitor/ts/stream/日志导致无法重启问题
1、报错信息如下:日志目录/var/log/cloudera-scm-firehose/mgmt-cmf-mgmt-HOSTMONITOR-hadoop102.log.out。很明显就是因为删除的日志导致找不到文件。
2023-06-25 13:53:08
510
原创 扩展dlink-connector-phoenix使其phoenix-5.0.0支持flink1.16
目前我使用的是CDH6.3.2,flink使用的是1.6,Phoenix版本的是5.0.0这有在我的博客中提到过,hbase使用的是自带的2.x。这就遇到问题了目前有支持的比较好的是dlinky这个里面的插件,我现在需要做的是将dlink-connector-phoenix这个插件编译打包上传到flink的lib目录中使用sql-client进行测试。3、将dlink-connectors中的dlink-connector-phoenix-1.14拷贝一份到同级目录下面。mvn的仓库配置的是。
2023-06-01 17:50:32
1094
原创 编译flink1.6源码并打包成CDH6.3.2的parcel并且部署CDH6.3.2
10、将打包好的flink-1.16-SNAPSHOT-bin-scala_2.12.tgz放到flink-parcel目录下。14、FLINK-1.16-SNAPSHOT-BIN-SCALA_2.12_build文件夹中包含的文件。包名:flink-1.16-SNAPSHOT-bin-scala_2.12.tgz。7、打包parcel,建议在阿里云服务器上打包很快。9、修改flink-parcel.properties。3、修改flink目录下的pom.xml文件。4、修改setting.xml文件。
2023-05-22 18:08:50
1308
3
原创 【自定义debezium插件支持按照表名hash路由到同一个主题不同分区中】
自定义debezium插件支持按照表名hash路由到同一个主题不同分区中
2023-04-10 11:07:51
546
原创 CDH6.3.2引入debezium-connector-mysql-1.9.7监听mysql事件
首先说明一下为啥选用debezium,它能够根据事务的提交顺序向外推送数据,这一点非常重要。再有一个结合kafka集群能够保证高可用,对于熟悉java语言的朋友后面一篇博文会介绍怎样编写插件将事件自定义路由到你想要的主题甚至分区中。提高按顺序消费事件的并发能力。如果觉得好,请关注一下,后续将推出编写插件支持按照表名hash取模将事件分配到不同的主题或者分区当中支持多线程顺序并发消费,实现表与表之间的数据一致性
2023-04-10 10:22:00
576
原创 spark3.3.1通过hbase-connectors连接CDH6.3.2自带hbase
spark3.3.1通过hbase-connectors连接CDH6.3.2自带hbasehbase-connectors源码编译scala脚本测试hbase-connectorspyspark脚本测试hbase-connectors
2023-01-15 15:58:23
932
原创 pyspark结合hive使用 spark on hive方式开发代码附上代码实例
pyspark结合hive使用 spark on hive方式开发代码附上代码实例
2022-12-16 17:30:02
645
原创 spark-streaming 事件时间的窗口滑块(Window Operations on Event Time)实例
spark-streaming 事件时间的窗口滑块(Window Operations on Event Time)实例
2022-08-12 10:41:25
417
原创 spark报错:java.lang.String is not a valid external type for schema of bigint
spark报错:java.lang.String is not a valid external type for schema of bigint
2022-08-11 10:42:32
1600
原创 数据归一化处理
数据归一化1、最值归一化样本值 - 最小值 / (最大值 - 最小值)将所有数据映射到 0 - 1 之间 如果存在极值比如收入大部分人收入在1W 有些人收入在1000W2、均值方差(标准差)归一化样本值 - 均值 / 方差把所有数据归一到均值为0方差为1的分布中s²=((x1-x)²+(x2-x)²+···+(xn-x)²)/nnp.var(x)作用:衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。标准层差:s = sqrt(s²)
2022-06-10 17:03:45
5594
phoenix5.0.0支持flink1.6包dlink-connector-phoenix-1.16-0.7.3
2023-06-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人