- 博客(16)
- 资源 (29)
- 收藏
- 关注
原创 griffin与Livy、hdfs、ES7 、kerberos的集成
主要修改griffin源码:将依赖改为CDH的包,将其改为通过LDAP认证方式连接Hive server2,通过kerberos方式连接Hive metastore;改为适配ES 7的API调用;修改前端显示bug;Livy使用kerberos,使用客户端调用Livy API时认证的principal向yarn提交application
2021-07-13 09:57:04
794
原创 HBase线上生产调优建议(读写分离、RSgroup、流量控制)
笔者今天给大家讲一下 HBase 生产环境中的实践,包括资源隔离、参数配置、性能优化等方面,部分内容参考《HBase原理与实践》(非常建议大家好好读一读,一定会大有收获),以及笔者的实战经验。HBase 业务资源隔离1. 读写分离场景RegionServer 默认情况下只提供一个请求队列给所有业务使用,导致部分延迟较高的请求影响其他对延迟敏感的业务。针对这种情况,HBase 提供了读写队列隔离方案。我们知道,HBase 有三种典型的API操作类型,分别为 get、scan 和write,其中
2020-10-19 14:04:41
2728
原创 Kudu1.7修复unavailable Tablet replication
情景: 昨天修改了solr的配置,重启完solr发现有两台kudu server掉了,查看日志发现原来是由于文件句柄太多了导致的。但是由于kudu中的数据太多,container过多,并且full container较少,重启kudu server特别慢,会一直在做log_block_manager,这是由一个已知的bug导致的。https://issues.apache.or...
2019-07-20 15:12:25
2852
原创 HBASE表迁移之snapshot、hashtable和synctable、replication
对于生产环境中的HBASE表做数据迁移的话不建议使用CopyTable,CopyTable实质上是scan hbase表,对regionserver造成的压力太大,会影响线上的查询写入。而snapshot则是快照,只会映射出来一份元数据信息,exportSnapshot的时候会根据元数据信息去寻找对应的HFile,然后通过MapReduce导入到另一个集群的hbase中生成对应的快照。snap...
2019-07-20 14:39:44
880
原创 Kafka-Eagle过kerberos配置并集成企业微信报警
本篇文章主要讲如何在开启了kerberos的kafka环境中配置kafka-eagle,并开启邮件报警和企业微信报警。首先展示system-config.properties的配置:####################################### multi zookeeper&kafka cluster list 配置zk的信息,这里可以加多个集群######...
2019-07-09 16:02:00
1856
3
原创 HBase/Hive+Lily Indexer+solr踩坑总结
HBase/Hive+Lily Indexer+solr踩坑总结1号坑----大数据量的HBASE表往solr中刷历史索引需要关闭Lily,并根据rowkey分批运行MapReduce踩坑情景:我们有一张4亿条、300+字段的HBASE表需要针对30个字段在SOLR中建立二级索引,在刷历史数的时候没有分批,直接运行了批量建索引的MR程序,导致SOLR直接被冲垮,无法提供服务。原因:...
2019-07-09 15:19:19
1000
原创 kudu1.7版本使用限制(官方版)
已知问题和限制置顶先说一个kudu-1508的bug,如果你的服务器操作系统为Redhat或Centos 6.9以下,那么极有可能会触发该bug,会导致kudu重启时花费很长时间进行log_block_manager的读取,我这边kudu有1.8T的数据,重启后花了两个小时才好。在进行log_block_manager读取的时候,kudu停止对外服务,7050和8050端口全部处于关闭状态。若...
2019-01-09 17:24:59
1685
原创 impala与hive配置haproxy
impala与hive配置haproxy博主用的服务器系统版本为CentOS6.5,可联网安装haproxy yum install haproxy编辑配置文件下面是个配置实例:vim /etc/haproxy/haproxy.cfgglobal # to have these messages end up in /var/log/haproxy.log you will
2017-11-27 13:19:25
779
原创 Mongodb 3.0+操作手册 纯手打
Mongodb操作手册权限控制··3用户概念···3内建角色···3角色权限···4开启授权机制···5用户授权详解···6命名规范·· 7文档···7集合···8数据库···9SHELL中的基本操作·· 9创建···10读取···10更新···11删除···11数据类型·· 12
2017-10-30 10:37:30
2793
原创 KUDU对表操作
网上KUDU的资料很少,建议大家去下载官方文档,http://download.youkuaiyun.com/download/m0_37534613/9772873这是我整理好的。介绍的还是比较全的对于KUDU删除表就直接在Linux下运行:kudu table delete master(master的主机名) 表名对于使用kudu1.1以及以下的用户,利用impala创建ku
2017-03-07 13:58:22
19483
原创 IMPALA性能测试
impala与hive共享元数据,及hive中的表在impala中也有,并且可以做一些操作。但是impala抛弃了hive的底层MapReduce引擎,Impala自身包含三个模块:Impalad、Statestore和Catalog,除此之外它还依赖Hive Metastore和HDFS,其中Imapalad负责接受用户的查询请求,也意味着用户的可以将请求发送给任意一个Impalad进程,该进程在
2017-02-21 17:02:54
4416
原创 Hive分桶之BUCKET详解
Bucket对于每一个表(table)或者分区(partition), Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive也是 针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。把表(或者分区)组织成桶(Bucket)有两个理由: (1)获得更高的查询处理效率。桶为表加上了额外的结构,Hive 在处理有些查询时能利
2017-02-16 15:04:51
11389
原创 关于hive引用正则表达式建表的格式
正则表达式建表只要引用hive的正则包,并且将input的正则式子对数据切分出来的字段和output的%x$s以及你所建表的字段对应起来就好了。废话不多说,直接上例子了:create external table test1( 'ip' string, 'username' string, 'passwd' string, 'time' str
2017-02-16 14:31:47
1735
原创 关于Kylin的安装问题
在kylin的安装方面,主要有以下几个点需要注意:(楼主是用的CDH5.8.3)1、必须和hive放在同一个节点中2、必须安装了hbase3、必须设置kylin_home环境变量4、不要额外安装tomcat,kylin的tar.gz包自带tomcat,而且也不需要你去配置和启动tomcat5、你只需要将kylin的tar包解压,配置好环境变量,进入到/kylin/bin中启动./kylin.sh start就好了,接着去ip:7070/kylin就OK
2017-02-15 15:11:42
1650
1
griffin集成Livy kerberos.docx
2021-07-01
hbase hbck2修复工具hbase-operator-tools-1.0.0.1.0.0.0-618-bin.tar.gz
2020-10-16
本地跑mapreduce教程
2017-03-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人