- 博客(91)
- 收藏
- 关注
原创 集群中部分nodemanager节点无法启动问题原因
集群启用kerberos+ssl后发现部分NM启动不起来,CM启动日志提示:++ printf '! -name %s ' cloudera-config.sh hue.sh impala.sh sqoop.sh supervisor.conf config.zip proc.json '*.log' yarn.keytab '*jceks'+ find /run/cloudera-scm-...
2018-08-28 02:39:43
3858
原创 yarn 日志查看报错处理:Error getting logs at hostname:8041
解决办法:hdfs dfs -chmod 1777 /tmp/tmp/logshdfs dfs -chown mapred:hadoop /tmp/tmp/logshdfs dfs -chgrp -R hadoop /tmp/tmp/logs然后重启 jobhistory server
2018-05-30 00:17:36
2837
转载 hive/impala存储格式选型
转载自http://blog.youkuaiyun.com/mtj66/article/details/539689911、TEXTFILE 默认格式,建表时不指定默认为这个格式,存储方式:行存储 导入数据时会直接把数据文件拷贝到hdfs上不进行处理。源文件可以直接通过hadoop fs -cat 查看 磁盘开销大 数据解析开销大,压缩的text文件 hive无法进行合并和拆分
2018-03-14 14:24:24
3581
原创 关于hbase cannot get replica 0 location问题排查
近期,通过flume往hbase加载数据时,发现少量数据加载报错,提示如下错误,困扰了好几天。我们知道,客户端是通过zk找到meta表,再通过meta定位hbase表各region所在的regionserver。zk中保存meta表的regionserver hostname信息,如果客户端不识别hostname就会提示该错误。显然我们的客户端配置了hostname映射关系,故排除该问题,
2018-01-06 18:21:59
18341
1
原创 eclipse/maven工具打包及使用
1、hbase导出到集群执行 a、直接依赖集群上的包 只导出jar文件: G:\java\sourcecode\myjava\ExampleClient.jar 修改jar文件MANIFEST.MF中的内容,将main指向所跑的主类 com.hbase.ExampleClient 上传至集群运行
2017-12-27 21:19:18
1226
原创 jvm内存分析命令
top –H -p 47005 jstat -gcutil 47005 统计gc信息jmap -dump:live,file=a.map 47005 jmap -histo 47005 比较简单的各个有多少个对象占了多少内存的信息jmap –heap 47005 打印heap的概要信息,GC使用的算法,heap的配置及wise heap的使用情况.
2017-12-18 17:03:22
600
原创 eclipse常用快捷键
1、定位import模块来自哪个jar包如查看 import org.apache.hadoop.conf.Configuration;归属jar包将鼠标移至Configuration上按F2,点击“open Attached ...Browser”即可显示来源jar包2、批量重命名快捷键alt+shift+r
2017-12-09 19:49:31
211
转载 greenplum数据库参数设置
转载于 http://blog.youkuaiyun.com/echollee/article/details/6915479 起因:greenplum查询一个表的分区太多导致出现这么个错误:执行SQL异常ERROR: insufficient memory reserved for statement 主要就这个异常信息于是在网上查了查,发现网上这么说:statement_mem:
2017-12-08 16:57:46
2645
转载 greenplum 权限说明
Table 2. Object PrivilegesObject TypePrivilegesTables, Views, SequencesSELECTINSERTUPDATEDELETERULEALLExternal TablesSELECTRULEALL
2017-12-06 18:25:08
1818
转载 greenplum pg_hba.conf 文件简析
转自:https://www.cnblogs.com/hiloves/archive/2011/08/20/2147043.htmlMETHOD指定如何处理客户端的认证。常用的有ident,md5,password,trust,reject。ident是Linux下PostgreSQL默认的local认证方式,凡是能正确登录服务器的操作系统用户(注:不是数据库用户)就能使用本用户映射的
2017-12-06 17:04:42
4514
原创 hadoop2.2.0升级到2.7.2
1、非高可用集群安装及配置 配置了1个master 2个slave,启动正常,并添加相关数据2、升级为手动高可用集群(与正式环境一致) 2.1、配置手动故障转移hdfs HA (此处不需要zk,自动切换才依赖zk) ---backup cp -r /home/test/hadoop-2.2.0/etc/hadoop
2017-11-20 14:10:41
790
原创 SecondaryNameNode异常排查
二级namenode提示错误:2017-11-20 09:44:58,877 ERROR org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode: Exception in doCheckpointjava.io.IOException: Inconsistent checkpoint fields.LV = -47 names
2017-11-20 10:31:05
2014
原创 hadoop2.2.0升级成hdfs ha后查询报java.net.UnknownHostException
hadoop2.2.0升级成hdfs ha后查询报错: hadoop fs -ls /17/11/16 16:17:52 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable-l
2017-11-16 16:44:55
2709
原创 sparksql优化1(小表大表关联优化 & union替换or)
----原语句(运行18min)INSERT into TABLE schema.dstable SELECT bb.ip FROM (SELECT ip, sum(click) click_num, round(sum(click)/sum(imp),4) user_click_rate FROM schema.srctable1WHERE date = '2017102
2017-11-07 18:03:15
6226
转载 linux top命令查看内存及多核CPU的使用讲述
转自:http://www.cnblogs.com/dragonsuc/p/5512797.html查看多核CPU命令mpstat -P ALL 和 sar -P ALL 说明:sar -P ALL > aaa.txt 重定向输出内容到文件 aaa.txt top命令经常用来监控linux的系统状况,比如cpu、内存的使用,程序员基本都知道这个命令,但比较奇怪的
2017-10-30 22:32:04
424
原创 hbase hregion server 异常退出排查
---HBASE日志2017-10-25 23:01:15,788 INFO [JvmPauseMonitor] util.JvmPauseMonitor: Detected pause in JVM or host machine (eg GC): pause of approximately 2907msGC pool 'ParNew' had collection(s): coun
2017-10-28 15:32:08
4565
1
原创 调整elasticsearch数据存放目录的一种快速方法
为避免实例停止期间,主副本数据复制问题,采取以下方法,可快速实现数据存放目录变更。经验证,速度较常规方法快至少一倍。1、停一个节点前,禁用分片 curl -XPUT '10.10.10.111:9200/_cluster/settings?pretty' -H 'Content-Type: application/json' -d' { "transien
2017-10-27 19:21:28
8473
转载 Elasticsearch Recovery详解
转自:http://blog.youkuaiyun.com/u012450329/article/details/52881045Elasticsearch Recovery详解基础知识点在Eleasticsearch中recovery指的就是一个索引的分片分配到另外一个节点的过程;一般在快照恢复、索引副本数变更、节点故障、节点重启时发生。由于mas
2017-10-27 18:08:29
745
原创 hadoop集群优化
hadoop集群优化:一、配置参数优化1、小文件优化:调整split\reduce等参数split参数需根据应用自定义调整,不能统一配置。--hive-site.xml(调整reduce输出参数) hive.merge.mapredfiles true hive.merge.smallfiles.avgsize 100000000
2017-10-20 21:15:04
970
转载 spark动态分配executor
转自:http://blog.youkuaiyun.com/u014393917/article/details/50630829动态分配executor的实例初始化部分如果spark.executor.instances配置项设置为0或者没有设置,这个默认情况下是一个未设置的值,yarn的运行模式时,这个配置通过--num-executors来得到.同时spark.dynamic
2017-10-18 22:35:41
6244
原创 Maven私服(Nexus)部署
一. 概述Nexus是一个maven私服,主要解决的问题有:1. 由于国内的网络环境比较恶劣,从maven中央仓库下载依赖库比较慢,因此架设nexus私服从内网获取,大大提高下载速度。2. 多个不同的项目存在多个相同的依赖,若每个项目都独自通过中央仓库或其他maven仓库中获取依赖,占用网络资源且效率低下,使用nexus私服仅在依赖库第一次获取时需要从
2017-10-13 17:54:53
908
转载 spark中的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。
转自:https://www.zhihu.com/question/33270495/answer/93424104梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark
2017-10-12 18:42:09
1704
原创 未解之谜
1、spark thriftserver运行一段时间后,执行SQL报以下错误:Error: java.io.IOException: Failed to create local dir in /tmp/blockmgr-0937276e-0a89-4df0-9282-724a0525363a/1e. (state=,code=0)java.io.IOException: Failed t
2017-10-12 16:10:54
1618
转载 linux下测试磁盘的读写IO速度
转自:http://blog.chinaunix.net/uid-24250828-id-3239100.html有时候我们在做维护的时候,总会遇到类似于IO特别高,但不能判定是IO瓶颈还是软件参数设置不当导致热盘的问题.这时候通常希望能知道磁盘的读写速度,来进行下一步的决策.下面是两种测试方法:(1)使用hdparm命令这是一个是用来获取ATA/IDE硬盘的参数的命令
2017-10-11 11:15:36
3350
原创 hadoop lzo配置
一、准备工作(only一个节点即可,not all)1、maven准备2、安装lzowget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz tar -zxvf lzo-2.06.tar.gz -C ../cd lzo-2.06mkdir -p /usr/local/lzo206./con
2017-10-10 10:27:49
563
转载 hive服务
hiveserver/hiveserver2比较之前一直不明白,有了hiveserver,为什么还要有hiveserver2?看了下段,终于明白:hiveserver和hiveserver2虽然都基于thrift,允许客户端使用多语言远程操作hive,但前者不能处理多于一个客户端的并发请求。因此在Hive-0.11.0版本中重写了HiveServer代码得到了HiveServer2,进
2017-10-09 10:31:03
277
原创 spark 开启历史日志监控
vi spark-defaults.confspark.eventLog.enabled truespark.eventLog.dir hdfs://webcluster/directoryspark.eventLog.compress truevi spark-env.shexport SPARK_HISTORY_OPTS="-Dspark.history.ui.
2017-09-30 12:07:40
1207
原创 zookeeper事务日志可视化
将libs中的slf4j-api-1.7.5.jar文件和zookeeper根目录下的zookeeper.jar文件复制到临时文件夹tmplibs中,然后执行如下命令:cd tmplibsjava -classpath .:slf4j-api-1.7.5.jar:zookeeper.jar org.apache.zookeeper.server.LogFormatter /data
2017-09-29 18:17:21
521
原创 rsync部署及使用
一、服务端配置vi /etc/rsyncd.conf uid = root gid = root use chroot = no max connections = 40 lock file=/var/run/rsyncd.lock log file = /var/log/rsyncd.log #exclud
2017-09-28 09:59:47
379
原创 分布式集群批量执行命令sh脚本
#!/bin/bashecho -e command template as follow: "\n sh ~/sh/dist_batch_exec.sh [--background] \"date\""<<EOF EOFif [[ ! -f ~/sh/node.cfg ]]; then echo echo Error: ~/shell/node.cfg must be set ec
2017-09-27 22:05:58
2593
原创 IPProxyPool部署
依赖:python 2.7mkdir /home/hadoop/crawler一、安装python 2.7.2wget https://www.python.org/ftp/python/2.7.12/Python-2.7.12.tgztar -zxvf Python-2.7.12.tgz cd Python-2.7.12 ./configure --prefix=/usr
2017-09-27 15:21:26
2927
原创 hbase regionserver异常退出
2017-09-23 09:20:54,223 WARN [JvmPauseMonitor] util.JvmPauseMonitor: Detected pause in JVM or host machine (eg GC): pause of approximately 28836msNo GCs detected2017-09-23 09:20:54,250 INFO [regio
2017-09-23 17:04:10
3103
转载 大页面和透明大页面
内存是由块管理,即众所周知的页面。一个页面有 4096 字节。1MB 内存等于 256 个页面。1GB 内存等于 256000 个页面等等。CPU 有内嵌的内存管理单元,这些单元中包含这些页面列表,每个页面都使用页表条目参考。让系统管理大量内存有两种方法:增加硬件内存管理单元中页表数增大页面大小第一个方法很昂贵,因为现代处理器中的硬件内存管理单元只支持数百或
2017-09-22 18:55:28
4527
转载 单表关联查询MR
转自:http://www.linuxidc.com/Linux/2015-03/114669p6.htm1、 输入数据分析输入文件数据示例:child parentTom Jack Jack AliceJack Jesse第1列表示child,第2列表示parent,我们需要根据child和parent的关系得出child和grantparent的关系。比如说
2017-09-18 21:43:37
1902
转载 reduce/map/semi join
转自:http://database.51cto.com/art/201410/454277.htm一、概述对于RDBMS中的join操作大伙一定非常熟悉,写sql的时候要十分注意细节,稍有差池就会耗时巨久造成很大的性能瓶颈,而在Hadoop中使用MapReduce框架进行join的操作时同样耗时,但是由于hadoop的分布式设计理念的特殊性,因此对于这种join操作同样也具备了一定的
2017-09-18 21:41:06
454
原创 hadoop卸载及扩容
------------------------------------------------------------------------------卸载---------------------------------------------------------------------------------------------------------待卸载节点bis-
2017-09-18 18:01:03
6742
转载 QJM实现机制
转自:http://www.cnblogs.com/charlist/p/7122237.html前言1.1背景 自从hadoop2版本开始,社区引入了NameNode高可用方案。NameNode主从节点间需要同步操作日志来达到主从节点元数据一致。最初业界均通过NFS来实现日志同步,大家之所以选择NFS,一方面因为可以很方便地实现数据共享,另外一方面因为NFS已经
2017-09-18 16:20:48
2365
转载 虚拟机上面的LINUX 无法和宿主WIN上面的时间同步问题
转自:http://blog.youkuaiyun.com/u011569202/article/details/46137543服务器在虚拟机上运行多时,总是发现时间会不正常,调整好了,运行几日,会出现日期时间不正确的情况,正常时间1分钟,BSD上才走大约半分钟,偏移得厉 害。用ntpdate或ntpd都不能校正,无法正常同步时间。VMWare下普遍存在虚拟机CPU时钟频率慢于标准频率的BUG,导致
2017-09-15 11:22:45
523
原创 namenode异常退出分析
namenode异常退出日志:2017-09-14 02:38:07,147 INFO org.apache.hadoop.hdfs.server.namenode.FSNamesystem: Stopping services started for active state2017-09-14 02:38:07,150 INFO org.apache.hadoop.hdfs.server
2017-09-14 15:47:09
2850
转载 zk negotiated timeout和响应timeout讨论
转自:http://crazyjvm.iteye.com/blog/1701032http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题,但是又出现了一个问题,我把min和max都设置成了180000,但是仍然出现了以下的异常信息:Java代码 Client session timed out, have not h
2017-09-14 15:41:57
8706
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人