自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 datax/datax-web 搭建

1.安装mysql8.0,yum 安装。6.datax-web 邮件告警。3.运行datax自检脚本。5.搭建datax-web。4.修改datax 配置。7.datax集群搭建。

2023-12-07 17:21:43 501

原创 elasticsearch 慢查询分析方法

2. 查询 时在header 传入 X-Opaque-ID ,这是一个查询标记,当出现慢查询日志时,会把这个ID打印在es服务器上的慢查询日志里,最新的es8.9 见文档。当出现慢查询时,es会把这个opaque-id 打印在慢查询日志里,可以根据ID/表名/查询条件 定位是哪个业务组调用该表导致的慢查询。

2023-12-07 17:15:46 894

原创 HBase出现安全模式的一些简单思路

当某一个regionserver 写不进数据,原因是client获取的元数据就记录的数据该往这里写,所以是检测不到是否进入安全模式的,就算能检测到,如果不写,也不会往其他节点写;,如果提高这个频率,master能够更早的知道这个节点通信有问题,master会马上将这个节点负责的region数据,分配给别的机器,并重新balance;hbase 写数据时,数据往哪个regionserver 写,是由master 分配的,由zk协助一致管理的;自动故障转移,解决的是namenode节点故障和数据块丢失的问题。

2023-11-14 15:09:22 362

原创 ElasticSearch 设置自定义过滤器,查询时过滤标点符号

es集群存在一个旧表 my_test_v1.0, 该表存在一个字段 testContent,存在中英文混合以及标点符号, 例如: cooperation.测试中国,<a,。1.短语匹配查询 QueryBuilders.matchPhraseQuery();2. wildcard 模糊查询;1. 设置自定义过滤器。2. #填加索引结构。3. 自定义过滤器;

2023-06-29 21:21:27 649

原创 elasticsearch相同查询条件每次返回结果不一样

这是master选举的规则,我们这个集群是局部业务的小集群,数据量很少,只有两个节点;es写数据的流程是先写主片然后主片同步给副本,主片和副本是分布在不同的节点。我们是按周区分索引的,数据量不大,去掉时间条件执行查询发现会交替出现 命中21980和命中的8999结果;因为es查询每次是随机选择主片和副本的数据返回,所以会出现每次查询结果不一样的问题;5.继续判断前几天的日志,发现有一个一个WARN 日志,节点之间的通信超过30s,1.首先简单查询其他的表或者其他的集群有没有类似的问题,排除大环境问题;

2023-05-05 12:03:36 1342

转载 <转>亿级系统的Redis缓存如何设计???

缓存设计时,有很多技巧,优化手段也是千变万化,但是我们要抓住核心要素。那就是,让访问尽量命中缓存,同时保持数据的一致性。

2023-03-31 11:26:46 115

原创 windows11家庭版安装自带虚拟机

家庭版是没有该选项的,需要拷贝如下命令到记事本文档保存为cmd格式,右击以管理员权限运行,等待程序安装相关依赖,执行完成,输入Y重启电脑后,重新进入第1,2步就会发现Hyper-V已经增加到列表,勾选应用。1.桌面右键-个性化-主题-相关设置-桌面图标设置-勾选控制面板点击应用。网上其他相关链接的代码格式不对运行不了,下面代码为正确格式,拷贝即用。2.打开控制面板-程序与功能-启动或关闭windows功能。3.勾选Hyper-V点击确定。4.其他说明可以查看微软官方文档。

2022-10-21 16:25:56 12234 2

转载 Hbase split的三种方式和split的过程

在Hbase中split是一个很重要的功能,Hbase是通过把数据分配到一定数量的region来达到负载均衡的。一个table会被分配到一个或多个region中,这些region会被分配到一个或者多个regionServer中。在自动split策略中,当一个region达到一定的大小就会自动split成两个region。table在region中是按照row key来排序的,并且一个row key所对应的行只会存储在一个region中,这一点保证了Hbase的强一致性 。 在一个region中

2022-10-09 16:13:39 1942

原创 Spark Structured Streaming + Kafka +Json

Spark Structured Streaming + Kafka +Json。

2022-09-13 17:54:22 647

原创 Doris_Mysql 外部表配置流程

Doris_Mysql 外部表配置流程

2022-09-09 17:45:10 2234

原创 chunjun(flinkx) 数据同步工具浅尝

chunjun 是一款基于flink的数据同步工具,支持多种数据源的source和sink。

2022-09-01 16:43:44 3266

原创 HBase数据迁移(阿里云到腾讯云实战)

阿里云的客户数据迁移到腾讯云环境;腾讯云环境已经部分新客户的数据。为了保证迁移到腾讯云的历史客户,依然能访问到他们的历史数据;需要注意迁移后不能覆盖腾讯云环境的表数据(即增量迁移),同时要求不能停表停服务。...

2022-07-12 20:11:36 985

原创 Flink elasticSearchSink

<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-elasticsearch6_2.12</artifactId> <version>1.14.4</version></dependency>SinkFunction实现类:import org.apache.flink...

2022-04-28 15:05:10 1684

原创 java 任务嵌入spark启动类

依赖类 org.apache.spark.launcher.SparkLauncher启动类:import org.apache.spark.launcher.{SparkAppHandle, SparkLauncher}object SparkLuncherTest { def main(args: Array[String]): Unit = { val launcher = new SparkLauncher() .setAppName("myTest") .

2022-04-26 17:02:17 2588

转载 Elasticsearch 未授权访问漏洞验证及修复

漏洞修复:1.限制IP访问,禁止未授权IP访问ElasticSearch端口(默认9200)。2.通过ES插件形式来增加访问验证,需要注意增加验证后切勿使用弱口令:①shield插件,收费,暂不考虑。②针对1.7.0版本之前的ElasticSearch,可采用elasticsearch-http-basic插件。下载地址:Releases · Asquera/elasticsearch-http-basic · GitHubelasticsearch-http-basic和其他ES插

2022-04-25 17:59:21 23138

原创 es 异常 org.apache.http.ContentTooLongException: entity content is too long 解决思路

问题:使用es 的java restHighLevelAPI 请求报错如下Caused by: org.apache.http.ContentTooLongException: entity content is too long [349376897] for the configured buffer limit [104857600] at org.elasticsearch.client.HeapBufferedAsyncResponseConsumer.onEntityEnc

2022-03-29 17:52:51 5326

原创 ElasticSearch 获取文档的插入时的时间

参照官网链接https://www.elastic.co/guide/en/elasticsearch/reference/6.4/accessing-data-in-pipelines.html#accessing-ingest-metadatac创建摄取管道:PUT_ingest/pipeline/set_timestamp{"description":"addsthetimestampwhenadocumentisindexed","processors"...

2022-03-28 15:57:27 3069

原创 ElasticSearch 之 BucketScriptPipelineAggregationBuilder 代码实现

官网链接:Bucket Script Aggregation | Elasticsearch Guide [6.4] | Elastic实现功能:selectsum(col01),sum(col02),sum(col03)。。。,sum(col01)/sum(col02)fromlogJava代码实现: public void searchAgg(String indexName,String typeName, String query, String groupByF...

2022-01-21 15:09:48 3076 2

转载 转载-Spark Streaming的优化之路—从Receiver到Direct模式

Spark Streaming的优化之路—从Receiver到Direct模式 - 个推 - 博客园1 业务背景随着大数据的快速发展,业务场景越来越复杂,离线式的批处理框架MapReduce已经不能满足业务,大量的场景需要实时的数据处理结果来进行分析、决策。Spark Streaming是一种分布式的大数据实时计算框架,他提供了动态的,高吞吐量的,可容错的流式数据处理,不仅可以实现用户行为分析,还能在金融、舆情分析、网络监控等方面发挥作用。个推开发者服务——消息推送“应景推送”正是应用了Spar.

2021-11-02 14:45:49 206

转载 <转载>Presto对接华为HDFS 3.X,Unrecognized Hadoop major version number解决方案

简介这篇文章主要介绍了Presto对接华为HDFS 3.X,Unrecognized Hadoop major version number解决方案以及相关的经验技巧,文章约15691字,浏览量532,点赞数4,值得参考!一、场景复现登录命令行:./presto-cli--server192.168.6.1:10086--cataloghive--schemadefault--debug创建样例表:CREATETABLEbigdata(idvar...

2021-10-28 20:47:27 1184

原创 ElasticSearch 6.4 父子文档

官网链接:join datatype | Elasticsearch Guide [6.4] | ElasticHas Parent Query | Elasticsearch Guide [6.4] | Elastices的父子文档和嵌套结构都是处理一对多的关系;

2021-10-28 20:41:53 1347

原创 windows下 bat脚本合并多文档csv数据

代码示例:@echo offsetlocal enabledelayedexpansioncopy *.csv newFile.csvecho ' 合并成功!'pause1.将下载的csv 解压保存到一个单独的目录;2.将合并.bat 拷贝到这个目录;3.双击 合并.bat 等待即可,结束后按回车退出...

2021-10-13 14:28:20 3711 5

原创 scala隐式转换的两个demo

当某个类需要某个方法时,但是这个类本身并没有提供这个方法,我们可以通过一个小插件的方式-隐式转换,通过隐式转换我们可以像调用这个类本身已经存在方法一样来使用。隐式转换需要: 1.缺少方法的类; 2. 包含隐式转换的增强类; 3.包含方法的类;示例如下:我们要实现判断数据发送者是否发送过数据给数据接收者?如下是缺少方法的类:class DataLog{ @BeanProperty var source: = ...

2021-08-24 17:04:18 130

原创 ElasticSearch的两种迁移数据的方式

方式一 :elasticSearchDump官网文档:https://www.npmjs.com/package/elasticdump全局安装:npm install elasticdump -g1) 从sourceIp集群迁移数据到dstIpelasticdump \--input=http://sourceIp:9200/my_index \--output=http://dstIp:9200/my_index \--type=data2) 迁移mapping

2021-07-01 20:00:21 2161 1

原创 kafka 笔记

1)max.in.flight.requests.per.connection=1尽可能保证分区内的数据顺序和同一生产者发送的顺序一致;2)partition.assignment.strategy=class org.apache.kafka.clients.consumer.StickyAssignor消费者示例发生负载均衡后,原本消费者编号1消费为分区0可能更改为消费分区1,此参数有利于同一分区具有因果关系的数据;3)对于根据key指定分区发送的数据如果需要调整分区数,为了保证消费有.

2021-03-23 20:00:46 191

原创 Kafka消费者任务入数据到elasticSearch和hbase出现jar包冲突

日志:Exception in thread "Thread-0" java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.<init>()V from class org.apache.hadoop.hbase.zookeeper.MetaTableLocator at org.apache.hadoop.hbase.zookeeper.MetaTableL

2020-08-13 19:05:17 357

原创 Kafka没有即时消费数据 并且频繁出现自动负载均衡下线上线消费实例的现象

问题分析:1.由于客户反馈实时监控,会出现延迟10秒左右的样子,经过排查实例日志没有发现任何报错;消费者实例所在机器不存在负载过高的情况,处理逻辑的下游和上游也没有出现性能瓶颈;2.查看kafkaManager跟踪kafka消费实例的实时lag值;发现会循环的出现消费完全之后挤压四五百条然后又消费完全的情况,同时出现消费者实例频繁切换的情况;3.由于没找到原因又继续 tail -f 消费者的实例的日志(每当收到数据时打印下日志)同时查看Lag值;发现每当挤压四五百条时,就会出现停止打印接收数据的

2020-08-13 13:53:33 2184

原创 Java实现朴素的模式匹配法

package com.myTest.string;public class StringTest { public static void main(String[] args) { String mainStr="1googleggle"; String subStr="google"; System.out.println(compareMatch(mainStr,subStr,1)); } public static int compar...

2020-06-08 19:52:06 321

原创 Java实现循环队列(顺序存储结构)

队列满的条件是 (nextIndex+1)%capacity==firstIndex;队列为空的条件是firIndex==nextIndex;数组总是会空一个元素以满足上面两个条件;好处是提取元素和追加元素的复杂度都是O(1);package com.myTest.queue;import java.util.concurrent.locks.ReentrantLock;public class CurrentArrayQueue<E> { public stat.

2020-06-08 15:51:47 367

原创 双向链表(Java)-ADD,GET,REMOVE

package com.sobot.stack;import java.util.LinkedList;/** * Java实现双向链表结构,add,get,remove, !mod * @param <E> */public class TwoWayLinkList<E extends Object> { public static void main(String[] args) { LinkedList<String> .

2020-06-04 19:09:46 353

原创 栈的递归应用-Java实现斐波那契数列

一个直接调用自己或通过一系列的调用语句见解的调用自己的函数,称作递归函数;每个递归函数都具有基线条件和递归条件。基线条件是为了防止陷入永不结束的无穷递归。 迭代和递归的区别是:迭代使用的是循环结构,递归使用的是选择结构。递归能使程序的结构更清晰、更简洁、更容易理解,迭代可能使程序的性能更好。但是大量的递归调用会建立函数的副本,会耗费大量的时间和内存,甚至引起栈内存溢出。迭代不需要反复调用函数和占用额外的内存空间。 如果栈很高,可以考虑使用循环或者尾递归。...

2020-06-04 15:49:17 394

原创 单链表实现栈的链式存储结构

package com.myTest.stack;/** * 单链表实现栈的链式存储结构 * * @param <T> */public class LinkStack<T> { public static void main(String[] args) { LinkStack<Integer> linkStack = new LinkStack<>(); linkStack.push(1); .

2020-06-03 20:24:06 539

原创 Java实现两栈共享空间

如果我们有两个相同类型的栈,我们它们各自开辟了数组空间,极有可能第一个栈已经满了,再进栈就溢出了,而另一个栈还有很多存储空间空闲,我们完全可以用一个数组来存储两个栈。————引自大话数据结构第四章4.5 两栈共享空间package com.myTest.stack;/** * java实现两栈共享存储空间 * */public class SharedStack<T> implements java.io.Serializable { public stati...

2020-06-03 17:16:08 1540

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除