春_-优快云博客

2.2 配置免密,在所有机器上执行cat ~/.ssh/id_rsa.pub | ssh ampthon@nna ‘cat ~/.ssh/authorized_keys’ 命令，将公钥拷贝到nna服务器上，然后将nna上的authorized_keys文件覆盖到集群其他机器。4. 启动spark，./start-all.sh（这里要进入spark目录，如果使用环境变量是走的hadoop的脚本）hadoop-env.sh 、yarn-env.sh、 mapred-env.sh文件。增加用户和用户组设置。

2023-04-23 10:01:33 878

原创模拟kafka测试零拷贝和磁盘顺序写的速度

使用nio + io多路复用 + 零拷贝 + 磁盘顺序写。

2023-04-23 10:01:01 159

原创 spark提交命令中的jars设置方式

此方法是在大数据平台架构与原型实现：数据中台建设实战这本书上看到的之前我们使用的方式是将所有jar的名字加入到配置文件中，提取为jars参数。

2023-04-23 10:00:12 510

原创 jvm性能调优

启动程序后查看一下内存占用。

2023-04-23 09:59:36 308

原创非springboot项目非web项目添加druid监控页面

脚本druid-github官网有。

2023-04-23 09:59:02 439

原创 Linux下在没有root权限的普通用户下，执行需要root权限的java程序

我们需要在没有root权限的普通用户下，执行java程序，此java程序中需要使用到jpcap来接收网卡的包，jpcap需要root权限才能够加载网卡信息，由于此用户并不能拿到root权限，所以需要给java虚拟机提权来解决问题。

2023-04-23 09:58:29 1963

原创 maven在无互联网(内网)环境下打包

Maven内网环境下打包

2022-12-28 15:12:14 3928

原创 Linux命令

Linux命令

2022-10-24 14:38:32 408

原创 HBCK2 详解

HBCK2

2022-10-12 11:21:59 1773

原创 JAVA程序绑定到指定的CPU核上

使用taskset命令将JAVA程序绑定到指定的CPU核上

2022-10-09 16:58:03 2549

原创 Hbase模糊查询优化 - 并发查询

HBase查询优化，多region，并发查询

2022-09-26 10:29:45 1747

原创 log4j配置文件

log4j

2022-07-19 10:37:54 364

原创 Spark worker内存不足导致任务失败，报错Likely due to containers exceeding thresholds, or network issues

报错:Lost executor 33 on xx.xx.xx.152: Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues. Check driver logs for WARN messages.原因：由于spark某节点可用内存不足导致整个任务失败，在执行日志中找到可以上面的报错信息。我这里应该是提交了多个任务后内存占用超过了spark可用内存，导致报

2022-05-05 15:40:15 2731

原创 idea全局搜索搜不全的BUG

搜不全真是坑坏我了，修改业务后，差点就卷铺盖走人了…修改配置打开help -> Find Action输入registry后搜索(点击框内任意一行后，直接输入就是搜索) page.size将100的值改大，一步到位100000

2022-04-15 15:01:16 2628

原创在已有数据的linkedList和arrayList集合中在中间位置新插入一条数据谁更快

以前一直以为是linked中间插入和头部插入都是比arrayList快的，今天开会的时候谈到这个面试题，这里就重新认识一下这两个集合。结论：不想存在性能瓶颈，不是一定要linkedlist的场景就使用arraylist就可以了，除了头插，arraylist基本都是优于linkedlist的1.中间插入数据linkedlist：中间插入数据linkedlist是需要遍历移动和new node节点的arraylist:arraylist可能需要扩容和一定要移动数据的,但是arraylist使用的sy

2022-04-11 19:39:18 1908 1

原创 Kylin3.1.3连接Hbase报错找不到 hbase-common lib not found的解决办法

kylin启动报错hbase-common lib not found

2022-03-29 11:18:37 2063

原创 HDFS和Spark配置LZO压缩，Spark读取LZO创建正常Task数量

1.说明为了解决，下数据日益增长并且目前使用Snappy压缩导致的Spark读取时会出现OOM，并且处理起来速度过慢的问题，决定使用LZO+Index来解决问题。线上Hadoop版本3.2.1，Spark2.3.1，Lzo使用最新版0.4.212.安装lzopsudo yum -y install lzop3.下载编译安装LZO下载地址http://www.oberhumer.com/opensource/lzo/download/lzo-2.10.tar.gz下载好后在linux下进行

2022-02-11 10:33:26 2435 2

原创 Hadoop集群HDFS各节点磁盘使用率不平衡，使用balancer做数据平衡

HDFS上各节点磁盘大小不一致，新增节点数据平衡前，是非常不均衡的，某些节点已经接近90了集群的数据平衡已经迫在眉睫，必须要搞一搞了。1.设置传输速率我这里是万兆网卡，就先设置100M了在两台master上分别执行：hdfs dfsadmin -fs hdfs://nn1:8020 -setBalancerBandwidth 100M2.找一台空闲集器，开始平衡数据#设置数据之间差值5%nohup $Hadoop_home/bin/start-balancer.sh –threshol

2022-01-12 16:15:39 2513

原创 ES：记录curator+nfs进行索引备份、创建快照的一次实践

1. 安装curator工具下面是我离线安装的过程https://blog.youkuaiyun.com/weixin_43736084/article/details/121775484?spm=1001.2014.3001.55012.使用fs建立es存储库我们使用NFS，下面是官网给出的几种仓库类型2.1 fs建立存储库的注意事项注意事项，要不然后面创建仓库会失败：各台机器之间使用的用户的uid和gid必须一样(启动es的用户)，我这里uid=1000 gid=1003，不一样需要进行修改查

2021-12-10 10:54:48 2221

原创 ES curator离线安装与部署

1.版本：es：6.5.1curator：5.8.4 下载地址：https://www.elastic.co/guide/en/elasticsearch/client/curator/current/yum-repository.html#_signing_key_22.连接不上网站怎么办？出现无法访问此网页的话，去修改下本地dns具体方法：https://blog.youkuaiyun.com/weixin_43736084/article/details/1217756763.下载我这里用

2021-12-07 18:33:36 2010

原创一些网站github等无法连接服务器的解决办法

1.打开站长工具 http://tool.chinaz.com/speedtest/2.搜索github.com/3. 点击总耗时-排序4. 拿到延迟最低的ip地址20.205.243.1665.修改本地dnswindows：C:\Windows\System32\drivers\etc修改hosts文件，末尾添加20.205.243.166 github.comLinux：sudo vim/etc/hosts6.等一会访问就可以了，或者不断刷新网页...

2021-12-07 18:28:11 4143 1

原创 Spark2内存调优总结 - 内存划分与内存计算与调参方式

使用的Spark2以上版本所以只考虑UnifiedMemoryManager动态内存管理，如图：1. 内存划分与内存计算与调参方式1.1 三部分：Spark内存、用户内存、预留内存预留内存：300MB 固定Spark内存和用户内存比例由参数spark.memory.fraction(默认0.75) 控制计算公式：假设：我们在submit提交参数设置 executor.memeory = 10G + 300M (方便计算)，我们叫他为系统内存那么：Spark内存 = （系统内存 -

2021-11-25 17:26:50 3882

原创记录一次HBase的scan的分页查询

修改前任bug，Hbase查询过于慢了，以至于都查不出来了，看了代码发现使用的Scan只设置了withStartRow、withEndRow、setCaching扫描,拿到全部数据后存入集合再subList进行分页，但是HBase中存在某些数据有几百万条，根本scan不出来了。前任设置如下：其中start 和 end 拼接0和z是因为HBase中RowKey按照字典顺序排序，String start = rowKey + "0";String end = rowKey + "z";Scan sca

2021-11-24 10:58:27 3179 7

原创 Spark读取HDFS上的Snappy压缩文件所导致的内存溢出问题 java.lang.OutOfMemoryError: GC overhead limit exceeded

HDFS上有一些每天增长的文件，目前使用的是Snappy压缩，突然某天OOM了1.原因:因为snappy不能split切片，也就会导致一个文件将会由一个task来读取，读取后解压，数据又会膨胀好多倍，如果文件数太大而且你的并行度也挺大，就会导致大量full gc，最终OOM因为前人实现的，不太好改，为了程序能快速跑起来，只好将最后入HDFS前reparation(500),修改为1000，增加文件数，减少每个文件数据量。但是他不是长久之计，更换压缩方式LZO，但是没实现过还需要建立索引，需要规划一下，

2021-11-19 14:41:14 2659

原创第一次尝试修复Hbase2出现Region不一致，HBCK2

出现问题的原因Hadoop中报错，集群中某节点的一块磁盘损坏了，运维修复后，hbase出现了region不一致的情况。修复1.首先查看web ui中被lock的region，对其进行bypass -or pid 再bypass -o id2. 查看home界面拿到regionId，对其重新分配assigns -o3. 最后还是会剩余一些region无法修复，因为原因是磁盘损坏了，所有查看HDFS文件是否坏块hdfs fsck -list-corruptfileblocks，发现有大量的损坏，过滤一

2021-11-15 16:14:45 2431 1

原创第二次尝试修复Hbase2出现Region不一致，使用 HBCK2 - 2021.11.15

spark任务中入hbase任务全部失败了，查看日志发现hbase出现问题报错日志：在hbase的log中看到报错Call queue is full on xxxx,16000,1611197476326, too many items queued修改了配置文件，增加了队列数量参数说明：https://hijiazz.gitee.io/hbase-callqueue-isfull/并且zookeeper好像挂掉了，后来重启zk。然后重启hbase后出现了region不一致的情况。尝试

2021-11-15 16:04:22 4535

原创 Hbase2修复 - HBCK2

这两天集群扩容后，出现的一系列问题，某个节点数据的VERSION不对，最终没解决掉，最后导致HBase数据丢失以下是所使用到的博客，记录一下以后再次出现好进行解决主要使用HBCK2https://www.modb.pro/db/54575https://developer.aliyun.com/article/683107https://zhuanlan.zhihu.com/p/83237810https://www.daimajiaoliu.com/daima/4edb28b64900404

2021-09-30 16:53:27 418

原创 JAVA 捕获异常所遇BUG

排查程序BUG时发现，在线程池的定时器内并未进行异常捕获，而是在定时器外try catch的，内部实现中从HashMap中Get数据，没有此KEY所有返回了NULL，后面没对NULL做处理，导致程序出现异常，然后上层又没捕获异常，结果就是程序可以正常运行，日志里也没打印异常，只是出现了ERROR并未有异常信息，并且有一些数据回填失败。总结：1. 异常处理无法覆盖异步回调,并不能捕获，异步回调中的异常。 try 语句里的方法，如果允许在另外一个线程中，其中抛出的异常，是无法在调用者这个线程中捕获的。

2021-09-29 13:37:10 297

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

bottomangle.png

TcpClient.java

Message.java

TcpServer.java

MobaXterm backup.zip

空空如也