sunnyboy_4-优快云博客

原创某个业务采用【规则引擎】重构大幅降低耗时

重构后定时任务耗时。

2025-03-20 18:14:26 331

原创 k8s搭建 hive-metastore(iceberg,oss,mysql),kyuubi,spark-3.4.3(iceberg,oss),zookeeper使用阿里云存储桶(oss)

说明：使用iceberg作为湖的开放格式，好处可以兼容flink,spark,starrocks等不同计算引擎。作为对接客户端为了更好的执行业务开发人员的使用可以对接starrocks。在https://helm.sh/zh/docs/topics/version_skew/下载。1、说明这里的镜像文件为了支持阿里云oss都是重新打包镜像的，镜像链接会在文件中给出。2、使用到4台服务器,data4用作mysql搭建，和NFS搭建。4.5、查看可用的nfs地址。5、k8s使用helm安装。

2024-11-06 10:16:52 363

原创解决flink cdc 时间相差8小时问题

说明：由于flink cdc底层使用的是debezium本质问题是debezium 使用的时区写死了UTC.如下图。2、直接修改debezium源码，重新打包。从根本上解决问题，经测试兼容mysql,PG 一下是我修改的源码。1、本次使用的是flink-sql-connector-mysql-cdc-3.1.1.jar 测试。如果各位时间不一样可以按照自己的方式修改。3、然后重新打包flink-cdc。

2024-10-12 18:29:33 777

原创 (mysql和pg) -＞ flink-cdc -＞ kafka -＞ flink-sql -＞ StarRocks

【代码】(mysql和pg) -＞ flink-cdc -＞ kafka -＞ flink-sql -＞ StarRocks。

2023-11-22 15:58:08 285

原创 MongoDB复杂聚合查询与java中MongoTemplate的api对应

MongoTemplate的API。MongoDB聚合json脚本。

2023-09-08 14:04:50 709

原创使用lambda表达式提取共用代码使其更加简洁

使用lambda表达式提取共用代码使其更加简洁

2023-08-23 16:40:39 233

原创 redisson实现可靠高效的延迟队列

redisson实现可靠高效的延迟消息

2023-08-17 14:28:38 950 4

原创使用redisson客户端java位移运算实现多条件排名

3.1、由于时间戳按照正序排序所以先提交的要拍前面，说明分数要大一些。1、使用条件说明，由于一个分区有大概1万学生按照答题分数进行实时排名。附加题分数最大支持 1111111 = 2 + 4 + 8 + 16 + 32 + 64 + 128。3.2、附加题由于数量有限制分数最大不操过50分，给其分配7位。第三步、如果附加题的分数还相等则按照提交答案的时间戳正序排序。第二步、如果分数相等按照附加题的分数排序。分数 + 附加题分数 + 时间戳。第一步、按照分数排序。

2023-07-06 18:26:49 312

原创记一次cloudera删除/var/lib/cloudera-host-monitor/ts/stream/日志导致无法重启问题

1、报错信息如下：日志目录/var/log/cloudera-scm-firehose/mgmt-cmf-mgmt-HOSTMONITOR-hadoop102.log.out。很明显就是因为删除的日志导致找不到文件。

2023-06-25 13:53:08 510

原创扩展dlink-connector-phoenix使其phoenix-5.0.0支持flink1.16

目前我使用的是CDH6.3.2，flink使用的是1.6，Phoenix版本的是5.0.0这有在我的博客中提到过，hbase使用的是自带的2.x。这就遇到问题了目前有支持的比较好的是dlinky这个里面的插件，我现在需要做的是将dlink-connector-phoenix这个插件编译打包上传到flink的lib目录中使用sql-client进行测试。3、将dlink-connectors中的dlink-connector-phoenix-1.14拷贝一份到同级目录下面。mvn的仓库配置的是。

2023-06-01 17:50:32 1094

原创编译flink1.6源码并打包成CDH6.3.2的parcel并且部署CDH6.3.2

10、将打包好的flink-1.16-SNAPSHOT-bin-scala_2.12.tgz放到flink-parcel目录下。14、FLINK-1.16-SNAPSHOT-BIN-SCALA_2.12_build文件夹中包含的文件。包名：flink-1.16-SNAPSHOT-bin-scala_2.12.tgz。7、打包parcel，建议在阿里云服务器上打包很快。9、修改flink-parcel.properties。3、修改flink目录下的pom.xml文件。4、修改setting.xml文件。

2023-05-22 18:08:50 1308 3

原创【自定义debezium插件支持按照表名hash路由到同一个主题不同分区中】

自定义debezium插件支持按照表名hash路由到同一个主题不同分区中

2023-04-10 11:07:51 546

原创 CDH6.3.2引入debezium-connector-mysql-1.9.7监听mysql事件

首先说明一下为啥选用debezium，它能够根据事务的提交顺序向外推送数据，这一点非常重要。再有一个结合kafka集群能够保证高可用，对于熟悉java语言的朋友后面一篇博文会介绍怎样编写插件将事件自定义路由到你想要的主题甚至分区中。提高按顺序消费事件的并发能力。如果觉得好，请关注一下，后续将推出编写插件支持按照表名hash取模将事件分配到不同的主题或者分区当中支持多线程顺序并发消费,实现表与表之间的数据一致性

2023-04-10 10:22:00 576

原创 spark3.3.1通过hbase-connectors连接CDH6.3.2自带hbase

spark3.3.1通过hbase-connectors连接CDH6.3.2自带hbasehbase-connectors源码编译scala脚本测试hbase-connectorspyspark脚本测试hbase-connectors

2023-01-15 15:58:23 932

原创 CDH6.3.2版本pyspark-sql通过hive访问hbase

CDH6.3.2版本pyspark-sql通过hive访问hbase

2023-01-09 17:27:38 380

原创 streamsets3.22服务器CDH版本安装

streamsets3.22.3服务器CDH版本安装

2022-12-30 15:36:23 746 6

原创 pyspark结合hive使用 spark on hive方式开发代码附上代码实例

pyspark结合hive使用 spark on hive方式开发代码附上代码实例

2022-12-16 17:30:02 645

原创 vscode jupyter配置远程服务器开发

vscode jupyter配置远程服务器开发

2022-12-16 16:53:37 1598

原创 conda打包pyspark运行环境在yarn上运行

conda打包pyspark运行环境在yarn上运行

2022-12-14 17:49:06 596

原创打包CDH6.3.2版本的pyspark到conda中进行日常开发

打包CDH6.3.2版本的pyspark到conda中进行日常开发

2022-12-11 18:39:29 297

原创 python3.7.6版本支持spark3.3.1的pyspark

python3.6.5版本支持spark3.3.1的pyspark

2022-12-10 19:55:36 1754 1

原创服务器编译spark3.3.1源码支持CDH6.3.2

服务器编译spark3.3.1源码支持CDH6.3.2

2022-12-10 14:01:45 1803 5

原创记录一次被植入木马处理

记录一次被植入木马处理

2022-12-09 11:16:29 832 2

原创 CDH-6.3.2完整安装附带资源包

CDH-6.3.2完整安装附带资源包

2022-12-07 19:34:39 1784 1

原创 vscode中jupyter插件使用conda环境引入pyspark

vscode中jupyter插件使用conda环境引入pyspark

2022-11-28 00:08:12 1147

原创 mac conda3安装pyspark以及注意问题

mac conda3安装pyspark以及注意问题

2022-11-27 17:56:07 1114

原创 pandas学习

pandas学习

2022-11-25 16:18:11 279

原创 python分析【都挺好】小说任务关系

python分析【都挺好】小说任务关系

2022-11-18 14:51:48 429

原创解决matplotlib中文显示异常问题

mac matplotlib中文显示异常

2022-11-18 11:48:46 279

原创巧用微服务进行大数据量计算

巧用微服务进行大数据量计算

2022-11-11 14:16:11 940

原创在vscode创建python工程运行conda环境

在vscode创建python工程运行conda环境

2022-11-07 16:39:33 3142

原创 jdk8对Map集合进行排序

jdk8对Map集合进行排序

2022-09-07 14:55:43 1095

原创使用枚举方式消除if-else

使用枚举方式消除if-else

2022-08-23 15:35:43 95

原创采用yarn方式启动spark-thriftserver

采用yarn方式启动spark-thriftserver

2022-08-16 18:12:14 1814

原创 spark-streaming 事件时间的窗口滑块(Window Operations on Event Time)实例

spark-streaming 事件时间的窗口滑块(Window Operations on Event Time)实例

2022-08-12 10:41:25 417

原创 spark报错：java.lang.String is not a valid external type for schema of bigint

spark报错：java.lang.String is not a valid external type for schema of bigint

2022-08-11 10:42:32 1600

原创 yarn怎样调度spark答疑

yarn怎样调度spark答疑

2022-08-08 15:13:11 602

原创 jdk8集合对象多属性去重

jdk8集合对象多属性去重

2022-06-24 17:17:26 694

原创数据归一化处理

数据归一化1、最值归一化样本值 - 最小值 / (最大值 - 最小值)将所有数据映射到 0 - 1 之间如果存在极值比如收入大部分人收入在1W 有些人收入在1000W2、均值方差(标准差)归一化样本值 - 均值 / 方差把所有数据归一到均值为0方差为1的分布中s²=((x1-x)²+(x2-x)²+···+(xn-x)²)/nnp.var(x)作用：衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望（即均值）之间的偏离程度。标准层差:s = sqrt(s²)

2022-06-10 17:03:45 5594