zhangxl-jc-优快云博客

转载 maven 中配置多个mirror的问题

有个小伙伴遇到一个疑问：他的工作笔记本，在公司用部门搭建的maven私服做镜像，回到家用aliyun的镜像，每次都要改配置文件，很麻烦，希望能够不改动配置文件的情况下，动态切换mirror配置。我们知道，默认情况下配置多个mirror的情况下，只有第一个生效。那么我们可以将最后一个作为默认值，前面配置的使用环境变量动态切换。默认情况下，执行： mvn help:effective-settings 可以看到使用的是私服。我们知道 settings.xml 中可以使用变量，可以尝试使用变量解决。

2025-08-13 12:06:11 88

原创 Caused by: java.lang.OutOfMemoryError: Metaspace

2. kafka source的自定义序列化器 getProducedType 方法，使用createTypeInformation[T] 替代classOf[T] ，classof方式在flink会导致泛型擦除，可能会导致额外的类加载；3. Msg 使用预先定义类 warn: Warn 替代 warn: fastJson.JSONObject，使用Warn对象预编译类，其类型信息仅在首次加载时存入Metaspace ,无需动态生成。2.使用包含warn嵌套字段的msg字段，有很大概率能复现此问题；

2025-06-09 16:50:34 306

原创 datax/datax-web 搭建

1.安装mysql8.0，yum 安装。6.datax-web 邮件告警。3.运行datax自检脚本。5.搭建datax-web。4.修改datax 配置。7.datax集群搭建。

2023-12-07 17:21:43 600

原创 elasticsearch 慢查询分析方法

2. 查询时在header 传入 X-Opaque-ID ，这是一个查询标记，当出现慢查询日志时，会把这个ID打印在es服务器上的慢查询日志里，最新的es8.9 见文档。当出现慢查询时，es会把这个opaque-id 打印在慢查询日志里，可以根据ID/表名/查询条件定位是哪个业务组调用该表导致的慢查询。

2023-12-07 17:15:46 1071

原创 HBase出现安全模式的一些简单思路

当某一个regionserver 写不进数据，原因是client获取的元数据就记录的数据该往这里写，所以是检测不到是否进入安全模式的，就算能检测到，如果不写，也不会往其他节点写；，如果提高这个频率，master能够更早的知道这个节点通信有问题，master会马上将这个节点负责的region数据，分配给别的机器，并重新balance;hbase 写数据时，数据往哪个regionserver 写，是由master 分配的，由zk协助一致管理的；自动故障转移，解决的是namenode节点故障和数据块丢失的问题。

2023-11-14 15:09:22 491

原创 ElasticSearch 设置自定义过滤器，查询时过滤标点符号

es集群存在一个旧表 my_test_v1.0, 该表存在一个字段 testContent，存在中英文混合以及标点符号，例如: cooperation.测试中国,<a，。1.短语匹配查询 QueryBuilders.matchPhraseQuery()；2. wildcard 模糊查询；1. 设置自定义过滤器。2. #填加索引结构。3. 自定义过滤器；

2023-06-29 21:21:27 730

原创 elasticsearch相同查询条件每次返回结果不一样

这是master选举的规则，我们这个集群是局部业务的小集群，数据量很少，只有两个节点；es写数据的流程是先写主片然后主片同步给副本，主片和副本是分布在不同的节点。我们是按周区分索引的，数据量不大，去掉时间条件执行查询发现会交替出现命中21980和命中的8999结果；因为es查询每次是随机选择主片和副本的数据返回，所以会出现每次查询结果不一样的问题；5.继续判断前几天的日志，发现有一个一个WARN 日志，节点之间的通信超过30s，1.首先简单查询其他的表或者其他的集群有没有类似的问题，排除大环境问题；

2023-05-05 12:03:36 1550

转载＜转＞亿级系统的Redis缓存如何设计？？？

缓存设计时，有很多技巧，优化手段也是千变万化，但是我们要抓住核心要素。那就是，让访问尽量命中缓存，同时保持数据的一致性。

2023-03-31 11:26:46 148

原创 windows11家庭版安装自带虚拟机

家庭版是没有该选项的，需要拷贝如下命令到记事本文档保存为cmd格式，右击以管理员权限运行，等待程序安装相关依赖，执行完成，输入Y重启电脑后，重新进入第1,2步就会发现Hyper-V已经增加到列表，勾选应用。1.桌面右键-个性化-主题-相关设置-桌面图标设置-勾选控制面板点击应用。网上其他相关链接的代码格式不对运行不了，下面代码为正确格式，拷贝即用。2.打开控制面板-程序与功能-启动或关闭windows功能。3.勾选Hyper-V点击确定。4.其他说明可以查看微软官方文档。

2022-10-21 16:25:56 13092 2

转载 Hbase split的三种方式和split的过程

在Hbase中split是一个很重要的功能，Hbase是通过把数据分配到一定数量的region来达到负载均衡的。一个table会被分配到一个或多个region中，这些region会被分配到一个或者多个regionServer中。在自动split策略中，当一个region达到一定的大小就会自动split成两个region。table在region中是按照row key来排序的，并且一个row key所对应的行只会存储在一个region中，这一点保证了Hbase的强一致性。在一个region中

2022-10-09 16:13:39 2051

原创 Spark Structured Streaming + Kafka +Json

Spark Structured Streaming + Kafka +Json。

2022-09-13 17:54:22 685

原创 Doris_Mysql 外部表配置流程

Doris_Mysql 外部表配置流程

2022-09-09 17:45:10 2369

原创 chunjun(flinkx) 数据同步工具浅尝

chunjun 是一款基于flink的数据同步工具，支持多种数据源的source和sink。

2022-09-01 16:43:44 3367

原创 HBase数据迁移（阿里云到腾讯云实战）

阿里云的客户数据迁移到腾讯云环境；腾讯云环境已经部分新客户的数据。为了保证迁移到腾讯云的历史客户，依然能访问到他们的历史数据；需要注意迁移后不能覆盖腾讯云环境的表数据（即增量迁移），同时要求不能停表停服务。...

2022-07-12 20:11:36 1045

原创 Flink elasticSearchSink

<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-elasticsearch6_2.12</artifactId> <version>1.14.4</version></dependency>SinkFunction实现类：import org.apache.flink...

2022-04-28 15:05:10 1722

原创 java 任务嵌入spark启动类

依赖类 org.apache.spark.launcher.SparkLauncher启动类：import org.apache.spark.launcher.{SparkAppHandle, SparkLauncher}object SparkLuncherTest { def main(args: Array[String]): Unit = { val launcher = new SparkLauncher() .setAppName("myTest") .

2022-04-26 17:02:17 2639

转载 Elasticsearch 未授权访问漏洞验证及修复

漏洞修复:1.限制IP访问，禁止未授权IP访问ElasticSearch端口(默认9200)。2.通过ES插件形式来增加访问验证，需要注意增加验证后切勿使用弱口令:①shield插件，收费，暂不考虑。②针对1.7.0版本之前的ElasticSearch,可采用elasticsearch-http-basic插件。下载地址:Releases · Asquera/elasticsearch-http-basic · GitHubelasticsearch-http-basic和其他ES插

2022-04-25 17:59:21 23669

原创 es 异常 org.apache.http.ContentTooLongException: entity content is too long 解决思路

问题：使用es 的java restHighLevelAPI 请求报错如下Caused by: org.apache.http.ContentTooLongException: entity content is too long [349376897] for the configured buffer limit [104857600] at org.elasticsearch.client.HeapBufferedAsyncResponseConsumer.onEntityEnc

2022-03-29 17:52:51 5995

原创 ElasticSearch 获取文档的插入时的时间

参照官网链接https://www.elastic.co/guide/en/elasticsearch/reference/6.4/accessing-data-in-pipelines.html#accessing-ingest-metadatac创建摄取管道：PUT_ingest/pipeline/set_timestamp{"description":"addsthetimestampwhenadocumentisindexed","processors"...

2022-03-28 15:57:27 3341

原创 ElasticSearch 之 BucketScriptPipelineAggregationBuilder 代码实现

官网链接：Bucket Script Aggregation | Elasticsearch Guide [6.4] | Elastic实现功能：selectsum(col01),sum(col02),sum(col03)。。。,sum(col01)/sum(col02)fromlogJava代码实现： public void searchAgg(String indexName,String typeName, String query, String groupByF...

2022-01-21 15:09:48 3149 2

转载转载-Spark Streaming的优化之路—从Receiver到Direct模式

Spark Streaming的优化之路—从Receiver到Direct模式 - 个推 - 博客园1 业务背景随着大数据的快速发展，业务场景越来越复杂，离线式的批处理框架MapReduce已经不能满足业务，大量的场景需要实时的数据处理结果来进行分析、决策。Spark Streaming是一种分布式的大数据实时计算框架，他提供了动态的，高吞吐量的，可容错的流式数据处理，不仅可以实现用户行为分析，还能在金融、舆情分析、网络监控等方面发挥作用。个推开发者服务——消息推送“应景推送”正是应用了Spar.

2021-11-02 14:45:49 253

zhangjiaxx的博客

转载 maven 中配置多个mirror的问题

原创 Caused by: java.lang.OutOfMemoryError: Metaspace

原创 datax/datax-web 搭建

原创 elasticsearch 慢查询分析方法

原创 HBase出现安全模式的一些简单思路

原创 ElasticSearch 设置自定义过滤器，查询时过滤标点符号

原创 elasticsearch相同查询条件每次返回结果不一样

转载＜转＞亿级系统的Redis缓存如何设计？？？

原创 windows11家庭版安装自带虚拟机

转载 Hbase split的三种方式和split的过程

原创 Spark Structured Streaming + Kafka +Json

原创 Doris_Mysql 外部表配置流程

原创 chunjun(flinkx) 数据同步工具浅尝

原创 HBase数据迁移（阿里云到腾讯云实战）

原创 Flink elasticSearchSink

原创 java 任务嵌入spark启动类

转载 Elasticsearch 未授权访问漏洞验证及修复

原创 es 异常 org.apache.http.ContentTooLongException: entity content is too long 解决思路

原创 ElasticSearch 获取文档的插入时的时间

原创 ElasticSearch 之 BucketScriptPipelineAggregationBuilder 代码实现

转载转载-Spark Streaming的优化之路—从Receiver到Direct模式

转载＜转载＞Presto对接华为HDFS 3.X，Unrecognized Hadoop major version number解决方案

原创 ElasticSearch 6.4 父子文档

原创 windows下 bat脚本合并多文档csv数据

原创 scala隐式转换的两个demo

原创 ElasticSearch的两种迁移数据的方式

原创 kafka 笔记

原创 Kafka消费者任务入数据到elasticSearch和hbase出现jar包冲突

原创 Kafka没有即时消费数据并且频繁出现自动负载均衡下线上线消费实例的现象

原创 Java实现朴素的模式匹配法

原创 Java实现循环队列（顺序存储结构）

原创双向链表(Java)-ADD,GET,REMOVE

原创栈的递归应用-Java实现斐波那契数列

原创单链表实现栈的链式存储结构

原创 Java实现两栈共享空间

空空如也

空空如也