
hbase
ASN_forever
这个作者很懒,什么都没留下…
展开
-
HBase2.1.0分页查询(支持跳页)
HBase分页hbase中的数据是按照rowkey字典排序存储的,实现分页的思路有两个,一个是获取页面的起始rowkey,然后使用PageFilter来限制每页的数量。另一种是获取页面的起始rowkey和结束rowkey,然后直接调用scan的withStartRow和withStopRow查询即可。方案一、PageFilterhbase中有自带的PageFilter,能够实现分页功能,但是局限性很大,实际很少使用。就是说,PageFilter的作用域是单个的region,会从每个r原创 2020-12-31 17:38:16 · 4311 阅读 · 0 评论 -
伪分布Hadoop2.7.6 hbase2.1.8升级到Hadoop3.1.3 hbase2.1.10
如果Hadoop集群配置了高可用,则可以进行不停服的滚动升级。但现在是伪分布的单节点集群,因此需要停止Hadoop及相关的应用,包括hbase、zookeeper等。Hadoop升级因为目前有跑flink作业,checkpoint是放在hdfs上的,因此先停掉对应的job(只需要停job,不用关flink集群) 停止hbase集群:stop-hbase.sh 停止Hadoop集群:stop-all.sh 备份hdfs元数据:包括namenode元数据、datanode元数据、临时数据,我都备份原创 2020-07-03 16:55:08 · 606 阅读 · 0 评论 -
hbase regionserver挂掉报错has too many store files delaying flush up to 90000ms
今天在使用datax同步数据到hbase的时候,随着同步的数据越来越多,发现同步的速度越来越慢,且慢慢的出现同步数据为0的情况,以及regionserver间歇性挂掉,最后完全挂掉了。首先说一下,使用的hbase是单节点的,自己用来测试的。没有做过多的配置。hbase的表只设置了一个列族,列数不到30列。机器内存16G。当数据写到500万之后,开始变慢。最后写到800万regionserver崩溃。2020-05-25 10:31:53,453 INFO [RpcServer.defau原创 2020-05-25 12:08:31 · 1583 阅读 · 1 评论 -
hbase shell中查看16进制的中文
默认情况下,通过hbase shell的scan或get等命令获取的中文内容都是16进制的,无法直观的查看数据。其实hbase shell中是有方法将16进制中文转换成utf-8格式的中文的。主要有两种方式:使用FORMATTER => 'toString' 使用:toString示例:hbase(main):037:0> scan 'test'ROW COLUMN+CELL row1原创 2020-05-21 09:00:48 · 6627 阅读 · 4 评论 -
HBase 入门之数据刷写(Memstore Flush)详细说明(转载)
接触过HBase的同学应该对HBase写数据的过程比较熟悉(不熟悉也没关系)。HBase 写数据(比如 put、delete)的时候,都是写 WAL(假设 WAL 没有被关闭) ,然后将数据写到一个称为 MemStore 的内存结构里面的,如下图:但是,MemStore 毕竟是内存里面的数据结构,写到这里面的数据最终还是需要持久化到磁盘的,生成 HFile。如下图:如果想及时了...转载 2020-04-24 11:11:34 · 522 阅读 · 0 评论 -
dataX从mysql导出数据到hbase
业务数据库中存了大量的历史数据,导致在根据业务条件查询数据的时候效率太低。因此考虑将原始的业务数据通过SQL先做一遍处理后放到中间表,然后再把中间表的数据同步到hbase,以后直接从hbase查询数据。当然这个还涉及到增量数据如何同步,如何保证增量数据不丢失等问题,不在这里记录。这里只记录mysql中的数据如何全量同步到hbase。异构数据源之间的数据迁移工具比较多,常用的有kettle、sq...原创 2020-03-17 09:02:29 · 1170 阅读 · 0 评论 -
hbase优化
转自:https://yq.aliyun.com/articles/644139?spm=a2c4e.11155472.0.0.74bb68c6ROboVF1.概述HBase是一个实时的非关系型数据库,用来存储海量数据。但是,在实际使用场景中,在使用HBase API查询HBase中的数据时,有时会发现数据查询会很慢。本篇博客将从客户端优化和服务端优化两个方面来介绍,如何提高查询HBase...转载 2020-03-12 20:17:57 · 392 阅读 · 0 评论 -
hbase为什么能够实现实时读写
首先,需要明确的是,Hbase写入速度比读取速度要快,根本原因LSM存储引擎Hbase底层的存储引擎为LSM-Tree(Log-Structured Merge-Tree)。 LSM核心思想的核心就是放弃部分读能力,换取写入的最大化能力。LSM Tree ,这个概念就是结构化合并树的意思,它的核心思路其实非常简单,就是假定内存足够大,因此不需要每次有数据更新就必须将数据写入到磁盘中,而可以先...转载 2020-03-09 22:48:02 · 2475 阅读 · 1 评论 -
hbase2.1.6协处理器使用
对于2.1.6这个版本,使用协处理器需要引入hbase-common依赖。1.写协处理器实现类package com.asn.bigdata.hbase;import java.io.IOException;import java.util.Optional;import org.apache.hadoop.conf.Configuration;import org.apac...原创 2020-02-16 11:14:19 · 1336 阅读 · 4 评论 -
hbase2.1.6 mr
1.hbase配置mapreduce依赖包编辑Hadoop的hadoop-env.sh文件2.重启hbase和Hadoop上面配置为hadoop-env.sh后,需要重启才能生效。3.在HBASE_HOME下运行命令即可/var/bigdata/hadoop-2.7.6/bin/yarn jar lib/hbase-mapreduce-2.1.8.jar rowcount...原创 2020-02-12 09:47:45 · 425 阅读 · 0 评论 -
hadoop集群基础上安装ZooKeeper和HBase
之前的文章已经介绍了如何搭建hadoop集群,以及在hadoop集群之上搭建spark集群。可以点击如下链接查看:一、centos7+hadoop2.8.0+VMware搭建完全分布式集群二、hadoop完全分布式基础上搭建spark集群本篇文章记录的是在上述hadoop集群上安装HBase和ZooKeeper的过程,以备后续参考!软件版本和系统环境①HBase,1.2.5,下...原创 2018-08-08 00:28:43 · 3091 阅读 · 6 评论