sh_qd-优快云博客

原创 JVM中的ExplicitGCInvokesConcurrent选项

问题描述：最近经常收到Hbase的FGC报警，但看gc日志如下：2019-12-24T14:33:12.332+0800: 9446402.403: [Full GC (System.gc()) 2019-12-24T14:33:12.332+0800: 9446402.404: [CMS: 9746276K->9749022K(44040192K), 1.8478848 secs...

2019-12-24 15:56:41 912

原创 zookeeper超时经验总结

问题描述在运维Hbase集群的时候，经常遇到RS进程宕掉的情况，连接zk客户端的超时时间sessionTimeout设置为180秒，查看FGC时间只有40s，为什么进程会被Kill？其实只这么设置根本没有任何作用，因为客户端将sessionTimeout的值传给zk时，zk还会根据minSessionTimeout与maxSessionTimeout两个参数重新调整最后的超时值...

2019-12-24 10:11:29 2875

原创 fsimage开启压缩

当一个hdfs集群比较大的时候，fsimage过大，会导致主备集群之间的复制流量过大，需要开启压缩。vim hdfs-site.xml<property> <name>dfs.image.compress</name> <value>true</value></property><property&...

2019-12-23 11:43:25 416

安装kubectlcurl -LO "https://storage.googleapis.com/kubernetes-release/release/$(curl -s https://storage.googleapis.com/kubernetes-release/release/stable.txt)/bin/darwin/amd64/kubectl"chmod +x ./kube...

2019-12-04 14:46:59 251

原创 kubernetes学习笔记

官方文档：https://kubectl.docs.kubernetes.io/ kubectlkubectl 的安装：https://kubernetes.io/docs/tasks/tools/install-kubectl/《Kubernetes中文指南》：https://jimmysong.io/kubernetes-handbook/另外一本 Kubernetes ...

2019-11-29 10:51:38 135

原创 Hbase集群间数据迁移

背景：有两个集群（cluster-a,cluster-b），需要将cluster-a集群的两张表(table1,table2)迁移到cluster-b集群。hbase版本号：1.2.6迁移方法：使用snapshot方法迁移步骤：1.在cluserA集群开启表的复制hbase shell>alter 'table1',{NAME => 'id', REPLIC...

2019-11-04 20:11:20 562

原创 hadoop2.6的datanode多存储硬盘设置数据副本存放策略

集群中每台机器使用12块硬盘，部分节点少数盘使用率超过90%，其它盘只有80%，即所有盘使用不均衡，如果不做特殊设置，一台机器整体使用空间还有的情况下，部分磁盘可能已经100%了。如何避免这个问题？在hadoop2.6中，datanode数据副本存放磁盘选择策略有两种方式：第一种是沿用hadoop1.0的磁盘目录轮询方式：RoundRobinVolumeChoosingPolicy第二种是...

2019-10-22 10:22:01 625

原创 ranger部署

Ranger部署1.修改初始化配置文件：sudo su - appcd /data/users/app/ranger-adminvim install.properties2.mysql授权#my 3306>create databaseranger_audit_db;>create databaseranger_db;>grant...

2019-10-18 11:18:20 659

原创 Hadoop datanode节点退役遇到的坑

问题描述：当前集群7台机器，需要退役掉其中的3台，退役了一天，发现block数不变，于是查看namenode日志，发现以下信息：2019-10-17 17:29:25,177 WARN org.apache.hadoop.hdfs.server.blockmanagement.BlockPlacementPolicy: Failed to place enough replicas, s...

2019-10-17 19:59:14 2481 1

原创 saltstack——主机改名

已存在salt中的机器，为了规范，有时候需要将这批主机改名，但改完名之后，salt是需要清除缓存的。操作流程：在master把这批机器剔除；然修改这批机器的主机名、在/etc/salt目录下、用mv把minion_id和pki的目录重命名、重启salt-minion服务（在mster段能再次监控到这台主机后、可把上面重命名的文件删除）把bd-hdp01改名为bd-hdp02在salt...

2019-09-26 11:24:53 298

原创 Hadoop2.6 Balance运行速度优化

Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况，比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候，将引发很多问题，比如MR程序无法很好地利用本地计算的优势，机器之间无法达到更好的网络带宽使用率，机器磁盘无法利用等等。随着HDFS集群规模的不断增大，默认的配置参数，不能满足快速balancer的要求，需要对参数进行调优。一、修改hdfs-...

2019-08-14 17:59:44 568

原创 yz-ycsb压测hbase记录

环境准备数据准备：usertable 100 个region 并灌入数据。 hbase shell>n_splits=100 hbase shell> create 'usertable',{NAME=>'cf',DATA_BLOCK_ENCODING=>'DIFF',COMPRESSION=&gt...

2019-08-02 18:18:36 447

原创 Yarn resourcemanager运维记录

Yarn resourcemanager运维记录：sudo su - huseryarn-daemon.sh stop resourcemanager;yarn-daemon.sh start resourcemanager主resourcemanager重启时会自动进行主备切换，切换后，spark thriftserver要重启。如果调整了capacity-schedule...

2019-08-01 10:45:51 360

原创 maven安装配置使用

1.JDK检查确认已经安装jdk，已经环境变量中配置JAVA_HOME，已经修改Path2.maven下载从http://maven.apache.org/download.cgi下载所需要的版本，如apache-maven-3.6.1-bin.tar.gz3.解压解压maven到某一指定目录，例如：/Users/qiudi/apache-maven-3.6....

2019-07-24 16:07:57 181

原创 zookeeper配置文件

zoo.cfgtickTime=2000initLimit=10syncLimit=5dataDir=/data/zookeeperclientPort=2181maxClientCnxns=256autopurge.snapRetainCount=30autopurge.purgeInterval=5server.0=zk1:2888:3888server.1=zk2:2...

2019-07-22 12:12:16 257

原创 Hbase下线regionserver

hbase下线regionserver #登录master节点，切换到huser用户 ssh$master sudosu- huser #graceful_stop regionserver ./graceful_stop.sh--maxthreads 5 $offline_hostname ./graceful_stop.sh...

2019-07-22 12:03:58 653

原创 Hadoop slave节点下线

yarn下线nodemanager #登录master节点，切换到huser用户 ssh$master sudosu- huser #如果yarn-site.xml配置文件里搜索不到exclude关键字，需要更新配置文件，支持yarn.exclude。 cd/opt/hadoop/etc/hadoop svn up ...

2019-07-22 12:00:37 609

转载 HBase最佳实践－内存规划

文章转载自：http://hbasefly.com/2016/06/18/hbase-practise-ram/?papivq=3ss0u线上HBase集群应该如何进行参数配置？这其实是很多HBase初学者在实践环节都可能会遇到的问题，有些人会选择默认配置，有些人会选择其他公司的推荐配置；诚然，这样的参数配置在大多数情况下都能正常工作，但性能却未必最佳、资源未必都能被合理利用。本文结合笔者的实...

2019-07-19 14:39:31 394

原创 Druid查询路由架构图

2019-07-19 09:43:28 489

原创 Druid引入的常用扩展

1.druid-kafka-indexing-serviceKafka Indexing Service是Druid推出的利用Druid的Indexing Service服务实时消费Kafka数据的插件。该插件会在Overlord中启动一个supervisor，supervisor启动之后会在 Middlemanager中启动一些indexing tasks，这些tasks会连接到Kafka集...

2019-07-19 09:27:30 727

原创 Druid查询语法

1.查询语句{ "queryType": "groupBy", "dataSource": "sample_datasource", "granularity": "day", "dimensions": ["country", "device"], "limitSpec": { "type": "default", "limit": 5000, "columns": [...

2019-07-19 09:26:34 1323

原创 Druid实时节点数据摄入

2019-07-19 09:24:14 443

原创 Druid架构讲解

druid内部节点介绍：Historical：历史节点的职责主要是对历史的数据进行存储和查询，历史节点从Deep Storage下载Segment，然后响应Broker对于Segment的查询将查询结果返回给Broker节点，它们通过Zookeeper来声明自己存储的节点，同时也通过zookeeper来监听加载或删除Segment的信号。 Coordinator：协调节点监测一组历史节点来...

2019-07-19 09:21:29 6528

转载 Druid在有赞的实践

一、Druid介绍Druid 是 MetaMarket 公司研发，专为海量数据集上的做高性能 OLAP (OnLine Analysis Processing)而设计的数据存储和分析系统，目前Druid已经在Apache基金会下孵化。Druid的主要特性：交互式查询( Interactive Query ): Druid 的低延迟数据摄取架构允许事件在它们创建后毫秒内查询，因为 Druid...

2019-07-19 09:15:27 120

原创 hbase性能压测

环境准备工具准备：ycsb 数据准备：usertable 100 个region 并灌入数据。 hbase shell>n_splits=100 hbase shell> create 'usertable',{NAME=>'cf',DATA_BLOCK_ENCODING=>'DIFF',COMP...

2019-07-15 12:05:22 940

原创 Linux常见问题汇总

1.文件删除后句柄没释放导致磁盘空间无法释放的解决方法执行以下命令，找到进程号和文件描述符：lsof |grep delete然后清空文件：> /proc/进程号/fd/文件描述符查看磁盘空间会立即释放2.yum卡住/rpm -qa卡住的解决方法rm -f /var/lib/rpm/__db*rpm -vv --rebuilddb...

2019-06-18 16:43:21 499

原创内核参数调优（vm.extra_free_kbytes）——内存换页导致的RT飙高

Olap router由于historical节点内存换页导致的RT突然飙高问题排查：https://www.cnblogs.com/panfeng412/p/drop-caches-under-linux-system-2.html一、现象描述收到上层业务调用超时报警，二、问题分析内存的去向主要有3个：1. 进程消耗。 2. slab消耗 3.pagetable消耗...

2019-05-29 16:48:19 9160 1

原创创建python虚拟环境

创建python虚拟环境：安装pip：sudo yum install python-pip 安装virtualenv：sudo yum install python-virtualenv 创建虚拟环境：sudo virtualenv env 切换当前python环境：source ~/env1/bin/activate...

2019-04-11 17:32:59 128

原创解决hadoop2.6.5一台机器多块盘存储不均问题

在hadoop2.6.5，datanode数据存储盘选择策略有两种方式复制：首先是要遵循hadoop1.0磁盘文件夹投票，实现类：RoundRobinVolumeChoosingPolicy.java另外一种是选择可用空间足够多的磁盘方式存储，实现类：AvailableSpaceVolumeChoosingPolicy.java选择策略相应的配置项是： <property...

2019-04-08 16:18:26 753

转载 Java内存与垃圾回收调优

要了解Java垃圾收集机制，先理解JVM内存模式是非常重要的。今天我们将会了解JVM内存的各个部分、如何监控以及垃圾收集调优。Java（JVM）内存模型正如你从上面的图片看到的，JVM内存被分成多个独立的部分。广泛地说，JVM堆内存被分为两部分——年轻代（Young Generation）和老年代（Old Generation）。年轻代年轻代是所有新对象产生的地方。当年轻代内存...

2019-02-13 18:45:44 171

原创执行ntptime报ERROR错误分析

一、解决方法修改ntp.conf注释掉以下几行tinker dispersion 100tinker step 1800tinker stepout 3600或者直接用以下命令：sed -i 's/tinker/#tinker/g' /etc/ntp.conf最后重启ntp服务sudo service ntpd restart二、了解参数的作用参考官方文档...

2019-02-13 10:44:14 5065

原创 Hadoop集群部署重要步骤记录

一、角色规划Hadoop集群机器命名规范如下，假如有3台机器，角色混部。ser001 ser002 ser0031.Namenode、Resourcemanager、zkfc部署到机器名末位是1和2的两台机器；2.JournalNode和Zookeeper部署到机器名末位是1、2、3的三台机器；3. Datanode、Nodemanager部署到所有节点。4.给前三...

2019-02-12 20:36:31 844

原创 TCP拥塞控制机制之慢启动

什么是慢启动最初的TCP的实现方式是，在连接建立成功后便会向网络中发送大尺寸的数据包，假如网络出现问题，很多这样的大包会积攒在路由器上，很容易导致网络中路由器缓存空间耗尽，从而发生拥塞。因此现在的TCP协议规定了，新建立的连接不能够一开始就发送大尺寸的数据包，而只能从一个小尺寸的包开始发送，在发送和数据被对方确认的过程中去计算对方的接收速度，来逐步增加每次发送的数据量（最后到达一个稳定的值，进...

2019-02-01 17:47:49 11310 1

转载 TCP/IP及内核参数优化调优

Linux下TCP/IP及内核参数优化有多种方式，参数配置得当可以大大提高系统的性能，也可以根据特定场景进行专门的优化，如TIME_WAIT过高，DDOS攻击等等。如下配置是写在sysctl.conf中，可使用sysctl -p生效，相关参数仅供参考，具体数值还需要根据机器性能，应用场景等实际情况来做更细微调整。net.core.netdev_max_backlog = 400000#该参数...

2019-02-01 16:45:19 939

原创添加JVM监控

在Java启动进程里添加以下参数，小米监控只采集7777端口，因此必须使用该端口。-XX:ErrorFile=${SPARK_LOG_DIR}/hs_err_pid%p.log -Xloggc:${SPARK_LOG_DIR}/gc.log-`date +'%Y%m%d%H%M'` -verbose:gc -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX...

2019-01-31 19:49:29 336

转载 java线上服务问题排查

1、业务日志相关假设系统出现异常或者业务有异常，首先想到的都是查看业务日志查看日志工具：less 或者moregreptail -f filename 查看实时的最新内容ps:切忌vim直接打开大日志文件，由于会直接载入到内存的2、数据库相关java应用非常多瓶颈在数据库，一条sql没写好导致慢查询，可能就会带来应用带来致命危害。假设出现Could not ge...

2019-01-31 13:39:10 387

原创 svn常见问题解决

问题描述$ svn commit -m "update"svn: Commit failed (details follow):svn: Aborting commit: '/data/users/huser/svn/presto-fin' remains in conflict 解决方法：svn remove --force filenamesvn resolve -...

2019-01-31 13:25:14 275

原创常用文档链接收集

小米监控open-falconhttp://book.open-falcon.org/ideahttp://www.xue51.com/mac/1468.html#xzdzJMXtrans + InfluxDB + Grafana实现Kafka性能指标监控https://my.oschina.net/sniperLi/blog/908864mat 使用笔记https:/...

2019-01-30 16:58:13 290

原创 tensorflow-serving部署

一、hadoop集群部署OS: centos71.hadoop3.0集群部署并启动yarn省略2.创建python虚拟环境 #安装virtualenv pip install virtualenv #创建虚拟环境 cd /data/venv virtualenv hdp-env #准备要安装的tensorflow包名及版本号 ...

2019-01-23 12:00:15 1293

转载 linux之hdparm命令说明及其测试硬盘读写速度

hdparm -t /dev/sda1功能说明：显示与设定硬盘的参数。语　　法：hdparm [-CfghiIqtTvyYZ] [-a <快取分区>][-A <0或1>][-c <I/O模式>][-d <0或1>][- k <0或1>][-K <0或1>][-m <分区数>][-n <0或1&am

2019-01-22 17:57:12 8104

空空如也

空空如也