黑幕Zz-优快云博客

原创 griffin与Livy、hdfs、ES7 、kerberos的集成

主要修改griffin源码：将依赖改为CDH的包，将其改为通过LDAP认证方式连接Hive server2，通过kerberos方式连接Hive metastore；改为适配ES 7的API调用；修改前端显示bug；Livy使用kerberos，使用客户端调用Livy API时认证的principal向yarn提交application

2021-07-13 09:57:04 794

转载 hbase region split

转载https://cloud.tencent.com/developer/article/1374592

2020-12-16 10:51:59 171

原创 HBase线上生产调优建议（读写分离、RSgroup、流量控制）

笔者今天给大家讲一下 HBase 生产环境中的实践，包括资源隔离、参数配置、性能优化等方面，部分内容参考《HBase原理与实践》（非常建议大家好好读一读，一定会大有收获），以及笔者的实战经验。HBase 业务资源隔离1. 读写分离场景RegionServer 默认情况下只提供一个请求队列给所有业务使用，导致部分延迟较高的请求影响其他对延迟敏感的业务。针对这种情况，HBase 提供了读写队列隔离方案。我们知道，HBase 有三种典型的API操作类型，分别为 get、scan 和write，其中

2020-10-19 14:04:41 2728

原创 Kudu1.7修复unavailable Tablet replication

情景：昨天修改了solr的配置，重启完solr发现有两台kudu server掉了，查看日志发现原来是由于文件句柄太多了导致的。但是由于kudu中的数据太多，container过多，并且full container较少，重启kudu server特别慢，会一直在做log_block_manager，这是由一个已知的bug导致的。https://issues.apache.or...

2019-07-20 15:12:25 2852

原创 HBASE表迁移之snapshot、hashtable和synctable、replication

对于生产环境中的HBASE表做数据迁移的话不建议使用CopyTable，CopyTable实质上是scan hbase表，对regionserver造成的压力太大，会影响线上的查询写入。而snapshot则是快照，只会映射出来一份元数据信息，exportSnapshot的时候会根据元数据信息去寻找对应的HFile，然后通过MapReduce导入到另一个集群的hbase中生成对应的快照。snap...

2019-07-20 14:39:44 880

原创 Kafka-Eagle过kerberos配置并集成企业微信报警

本篇文章主要讲如何在开启了kerberos的kafka环境中配置kafka-eagle，并开启邮件报警和企业微信报警。首先展示system-config.properties的配置：####################################### multi zookeeper&kafka cluster list 配置zk的信息，这里可以加多个集群######...

2019-07-09 16:02:00 1856 3

原创 HBase/Hive+Lily Indexer+solr踩坑总结

HBase/Hive+Lily Indexer+solr踩坑总结1号坑----大数据量的HBASE表往solr中刷历史索引需要关闭Lily，并根据rowkey分批运行MapReduce踩坑情景：我们有一张4亿条、300+字段的HBASE表需要针对30个字段在SOLR中建立二级索引，在刷历史数的时候没有分批，直接运行了批量建索引的MR程序，导致SOLR直接被冲垮，无法提供服务。原因：...

2019-07-09 15:19:19 1000

原创 kudu1.7版本使用限制（官方版）

已知问题和限制置顶先说一个kudu-1508的bug，如果你的服务器操作系统为Redhat或Centos 6.9以下，那么极有可能会触发该bug，会导致kudu重启时花费很长时间进行log_block_manager的读取，我这边kudu有1.8T的数据，重启后花了两个小时才好。在进行log_block_manager读取的时候，kudu停止对外服务，7050和8050端口全部处于关闭状态。若...

2019-01-09 17:24:59 1685

原创 HBase随笔记录权限控制、命名空间、流量限制和表负载均衡

hbase

2017-11-27 13:31:13 2351

原创 impala与hive配置haproxy

impala与hive配置haproxy博主用的服务器系统版本为CentOS6.5，可联网安装haproxy yum install haproxy编辑配置文件下面是个配置实例：vim /etc/haproxy/haproxy.cfgglobal # to have these messages end up in /var/log/haproxy.log you will

2017-11-27 13:19:25 779

原创 Mongodb 3.0+操作手册纯手打

Mongodb操作手册权限控制··3用户概念···3内建角色···3角色权限···4开启授权机制···5用户授权详解···6命名规范·· 7文档···7集合···8数据库···9SHELL中的基本操作·· 9创建···10读取···10更新···11删除···11数据类型·· 12

2017-10-30 10:37:30 2793

原创 KUDU对表操作

网上KUDU的资料很少，建议大家去下载官方文档，http://download.youkuaiyun.com/download/m0_37534613/9772873这是我整理好的。介绍的还是比较全的对于KUDU删除表就直接在Linux下运行：kudu table delete master(master的主机名) 表名对于使用kudu1.1以及以下的用户，利用impala创建ku

2017-03-07 13:58:22 19483

原创 IMPALA性能测试

impala与hive共享元数据，及hive中的表在impala中也有，并且可以做一些操作。但是impala抛弃了hive的底层MapReduce引擎，Impala自身包含三个模块：Impalad、Statestore和Catalog，除此之外它还依赖Hive Metastore和HDFS，其中Imapalad负责接受用户的查询请求，也意味着用户的可以将请求发送给任意一个Impalad进程，该进程在

2017-02-21 17:02:54 4416

原创 Hive分桶之BUCKET详解

Bucket对于每一个表（table）或者分区（partition）， Hive可以进一步组织成桶，也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。把表（或者分区）组织成桶（Bucket）有两个理由：（1）获得更高的查询处理效率。桶为表加上了额外的结构，Hive 在处理有些查询时能利

2017-02-16 15:04:51 11389

原创关于hive引用正则表达式建表的格式

正则表达式建表只要引用hive的正则包，并且将input的正则式子对数据切分出来的字段和output的%x$s以及你所建表的字段对应起来就好了。废话不多说，直接上例子了：create external table test1( 'ip' string, 'username' string, 'passwd' string, 'time' str

2017-02-16 14:31:47 1735

原创关于Kylin的安装问题

在kylin的安装方面，主要有以下几个点需要注意：（楼主是用的CDH5.8.3）1、必须和hive放在同一个节点中2、必须安装了hbase3、必须设置kylin_home环境变量4、不要额外安装tomcat，kylin的tar.gz包自带tomcat，而且也不需要你去配置和启动tomcat5、你只需要将kylin的tar包解压，配置好环境变量，进入到/kylin/bin中启动./kylin.sh start就好了，接着去ip:7070/kylin就OK

2017-02-15 15:11:42 1650 1