- 博客(510)
- 收藏
- 关注
原创 hbase之宽表与窄表对split的影响
hbase之宽表与窄表对split的影响 Hbase的hbase.hregion.max.filesize属性值用来指定region分割的阀值, 该值默认为268435456(256MB), 当一个列族文件大小超过该值时,将会分裂成两个region。 hbase的列可以有很多,设计时有两种方式可选择, 宽表(一行有很多列)和窄表如有一个存储用户邮件的表按宽表设...
2016-11-28 14:28:35
407
原创 hive与hbase集成
原文链接: http://blog.youkuaiyun.com/vah101/article/details/22597341 写的很不错,工作中正好用到,转载了 存储handler在开始介绍之前,首先请阅读StorageHandlers,对存储处理程序的框架有个初步的认识,可以帮助读者理解HBase集成。使用方法这个存储处理程序被编译成一个独立的模块, hiv...
2016-11-23 14:19:26
352
原创 hbase shell常用命令和filter
list 查看表 带有正则写法: hbase(main):014:0> list 'zm.*'TABLE zmtest1 ...
2016-07-19 15:41:52
1875
原创 64位linux系统编译hadoop源码 native库
下面是自己编译hadoop源码, 然后将native库上传覆盖hadoop的过程 0 hadoop native库:在hadoop压缩时 调用此库文件的jni(.so)来调用linux系统的功能, 一般我们的linux机器都是64位,而官网下载的hadoop安装文件都是32位编译的,因此如果不在你本机编译的话,想使用hadoop压缩功能受限。...
2016-06-21 11:13:59
2567
原创 使用notepad++设置sh文件unix格式
工作中经常要在window本地编写sh脚本,然后提交到服务器执行(服务器是u8格式)我经常用 notepad++, 在用这个工具编写 sh文件时,注意最后要将文件设置为 unix格式并且 u8编码,设置如下:这是我使用的版本: 下 选择: 以UTF-8无BOM格式编码(在5.4.3版本下,同时在格式下点击 转换为UNIX格式)而在 6....
2016-05-25 14:32:11
7485
原创 solr属性multivalued使用
业务目的: 数据在hive中,用 location:山东,河北,陕西 这种来存储,后入到hbase中,现在将hbase数据导入solr后,同时期待 搜索 location:山东 location:河北 location:陕西 都能搜索到这条记录 处理流程: solr schema.xml中, <f...
2016-05-03 17:40:40
1437
原创 hive增量对比后将增量数据插入原表
工作中,有个业务,需要将这个表每个月增加和修改的记录不断追加到这个表内: sql如下:f_courtannoucement_party: 法院公告 fct_pdffilename: pdf文件名称fct_name: 公告名称 insert overwrite table f_courtannoucement_partys...
2016-04-29 09:17:12
2899
原创 YARN内存使用优化配置
参考链接 : http://www.aboutyun.com/thread-11009-1-1.html 根据这个链接看cdh下配置yarn mapreduce大小,从而确定最多能开启多少个tasks http://blog.youkuaiyun.com/shubingzhuoxue/article/details/50239041...
2016-04-24 17:17:28
187
原创 linux sed 工作中使用
脚本如下: if [ "$1" == "" ]; then echo ./genconf.sh [TABLENAME] exit 1fisource ../../../conf.properties TABLENAME=`basename $1`conf=conf_$DATECF="f" dt_res=""func...
2016-04-19 17:55:01
208
原创 hive -e 出现cannot recognize input nearXXX
做接口平台,将 hive sql放在shell里,用 hive -e "' select xxx, concat_ws(",",collect_set(字段)) 字段 from tablexxx;" 报 FAILED: ParseException line cannot recognize input near ',' ',' 'collect...
2016-04-18 15:40:37
44655
原创 syntax error near unexpected token `的问题
、 参考链接:http://jingyan.baidu.com/article/9f63fb91d014b8c8410f0e7a.html 在做 data_center工程时, 大小20-30多个接口 hive清洗,split 到 hbase, 然后全量 增量对比,还有solr全量 增量更新删除文件 每个接口都写在一个sh里,在本地 window7编辑后, 用 u8无bom...
2016-04-17 15:11:05
1409
原创 系统SLA
在看 hbase实战这本书的时候,经常看到 系统SLA, 比如 不用停止整个集群,此方式不会影响应用系统的SLA,好奇是什么意思,百度下介绍如下: 服务水平协议(简称:SLA,全称:service level agreement)是在一定开销下为保障服务的性能和可靠性,服务提供商与用户间定义的一种双方认可的协定。通常这个开销是驱动提供服务质量的主要因素。一个完整的...
2016-04-16 19:44:35
1178
原创 PERFORMANCE WARNING: Overlapping onDeckSearchers=2
待整理 solr http://www.tuicool.com/articles/rqENbe http://www.cnblogs.com/rcfeng/p/4109700.html !!!
2016-04-15 18:29:04
1921
原创 linux grep 指定文件后缀名搜索
在安装的solr里找一些单词, 使用grep 写法如下: #pwd/opt/solr/solr/hbase_f_trademark_info_index_tbs/conf # grep "hbase_f_trademark_info_index_tbs" * 表示在当前目录下所有文件找单词 hbase_f_trademark_info_index_tbs...
2016-04-14 17:09:32
14414
原创 linux查看文件大小
头几天公司弄solr,将索引库目标目录指定到一个内存映射的 /tmp/memdir里,大小为80G,随着不断写入索引, /tmp/memdir 不够用,此时 solr在写到这个目录后 solr服务会挂掉,因此需要linux命令查看 目录使用情况: du: 总结每个文件的磁盘使用情况[root@hadoop3 ~]# du --helpUsag...
2016-04-14 14:21:44
472
原创 solr 参考链接 需要整理 TODO
http://www.tuicool.com/articles/mueARf 跟益达学Solr5 http://blog.youkuaiyun.com/dr_lf/article/details/47035015 添加分词器 http://www.tuicool.com/articles/rqENbe solr推酷 调优...
2016-04-10 21:11:07
146
原创 SolrCloud中的SolrCore报“exceeded limit of maxWarmingSearchers=2"问题怎么解决
请教个问题,我们是多线程往SolrCloud中的某个SolrCore导入数据,但是有时会出现“Error opening new searcher. exceeded limit of maxWarmingSearchers=2”这个错误,这个错误就会导致我们在SolrCloud上点击某个SolrCore的话,请求一直在等待,最后报页面无法打开,请问这个问题怎么解决呢? ...
2016-04-10 08:55:32
400
原创 solr配置文件说明 TODO 待整理
参考链接: http://blog.youkuaiyun.com/liuweitoo/article/details/8132981
2016-04-10 08:54:53
104
原创 ctrl+c能关闭mr任务吗
在命令行里执行hadoop mr时, 打印百分比时 ctrl +c是不一定就关闭这个任务的,应该用 hadoop job -list hadoop job -kill jobid来杀死 hive>下执行hive sql跑任务 ctrl +c可以关闭掉 ...
2016-04-07 18:01:27
775
原创 hbase跑数到solr时数据对不上一些简单总结
工作中,需要将hbase数据跑到solr里做部分字段索引,目前出现过两种情况: 1 假设hbase有100条, 跑到solr里是70条 2 假设hbase有100条,跑完job后mr显示 reduce input输出个数是100,但是在solr界面查询时, 报错,包什么字段 XX not found之类 ,但是看solr对应的索引库的schema.xml根本没...
2016-04-07 08:21:08
397
原创 资深首席架构师眼中的架构应该是怎样的?
原文链接: http://i.dataguru.cn/mportal.php?mod=view&aid=9124 我对架构定义的理解大概在7~8年前,我曾经有一个美国对口的架构师导师,他对我讲架构其实是发现利益相关者(stakeholder),然后解决他们的关注点(concerns),后来我读到一本书《软件系统架构:使用视点和视角与利益相关者合作》...
2016-04-06 17:22:45
197
原创 hive log的分类和所在位置
hive中日志分为两种: 1 系统日志,记录hive运行情况,错误状态2 job日志 , 记录hive中 job执行的历史过程 系统日志存储位置:配置在 hive/conf/hive-log4j.properties 文件中记录了hive日志存储情况 默认存储信息:hive.root.logger=WARN,DRFAhive.log.di...
2016-04-01 11:10:02
1193
原创 将很多段逻辑sql放在一个hive文件执行 终止提交的任务做法
背景: hive工作中,将很多etl 脚本写在一起,然后整体提交,提交后突然后悔想取消 eg: qyjssum.sh: sudo -u hdfs hive -e " use ste_qyjs; 清洗逻辑1..... 清洗逻辑2.... 清洗逻辑3...... " 调用写...
2016-04-01 08:03:37
667
原创 mapreduce数量---- TODO 待整理
http://www.aboutyun.com/thread-6945-1-1.html 待整理 写的很好
2016-03-29 14:03:08
124
原创 通过impala查看hfile
工作中有时需要查看hfile, 安装了impla后,直接点击右上角的 File Browser,找到hfile所在的路径即可, 比如 /DATA_CENTER/HFile/表/info/下看到所有hfile文件数据 ...
2016-03-28 12:00:32
139
原创 HBase Timeout-OutOfOrderScannerNextException-was there a rpc timeout
0 工作中遇到问题如下: Casuse by: org.apche.hadoop.hbase.exceptions.OutofOrderScannerNextException: Excepted nextCallSeq: 1 but the nextcallseq got from client:0: request=scanner_id: 431 number_of_r...
2016-03-28 11:27:52
1628
1
原创 shell设置脚本文件格式
工作中遇到的问题: 在window上写的shell脚本,通过nodepad++编辑后提交到linux系统跑数,报错如下: chmod '/DATA_CENTER/HFile/f_flws_ent/info: no such file or directory at 18. User-space table qualifiers can only ...
2016-03-28 11:17:04
2031
原创 hive自定义函数 求和
oracle中有个业务是 各项指标相加求和的,迁移到hive上,自定义函数写法如下: public class SumTest extends UDF{ String retVal = ""; double sumpart = 0; public Text evaluate(String... args) { String part = ...
2016-03-26 13:24:01
1081
原创 hive 获取当前yyyy/MM/dd HH:mm:ss
以前是写自定义函数, 现在用这种方式可以实现: from_unixtime(unix_timestamp(), 'yyyy/MM/dd HH:mm:ss')
2016-03-25 11:05:00
2383
原创 mapreduce-chain TODO
http://www.cnblogs.com/liqizhou/archive/2012/05/14/2499653.html 待整理
2016-03-25 09:27:07
87
原创 hbase实战---来自有道
如下是个人整理的笔记,编辑与有道,后直接分享,没有将内容在贴在iteye编辑器上 part1 : http://note.youdao.com/share/web/file.html?id=f12d9f4641ea9f0caae0803171d87f1a&type=note part2 : http://note.youdao.com/share/...
2016-03-23 14:50:08
142
原创 flume kafka好文 待看 TODO
http://www.jianshu.com/users/a9b2d43bb94e/latest_articles 简书
2016-03-23 14:07:50
133
原创 hbase上构建mapreduce代码 --- TODO
http://www.cnblogs.com/end/archive/2012/12/12/2814819.html 江南贡院
2016-03-23 11:40:44
90
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人