
大数据之HBase
hbase
大数据架构师Pony
不勤于始,将悔于终。
展开
-
FLink job提交依赖包问题解决
目录问题一:问题二:问题三:问题四:问题五:版本不兼容问题六:提交任务最后报错:不影响任务运行。问题一:运行flink jar包,提示少包:java.lang.ClassNotFoundException: org.apache.hadoop.hbase.client.TableDescriptor添加包问题二:pom中配置的hbase的版本不一定要跟实际安装的版本一致!问题三:添加netty-all-4.0.23.Fin.原创 2021-09-08 11:09:00 · 1296 阅读 · 0 评论 -
flinkSQL写入hbase问题汇总
问题一:Expression 'pay_acct_no' is not being grouped解决:检查下group by 的字段是否正确问题二:要插入的列和hbase的列不匹配.解决:注意ROW(),与hbase保持一致。原创 2021-09-08 10:53:55 · 3106 阅读 · 0 评论 -
java API操作hbase连接出错
原因:服务启动不全解决:检查服务开启状态--hadoop集群开启|zookeeper集群开启|hbase服务开启原创 2020-02-29 21:13:55 · 395 阅读 · 0 评论 -
Spark写入数据到hbase,本地idea运行
废话不多说,上代码:package day02.com.toHbaseimport org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.client.Putimport org.apache.hadoop.hbase.io.ImmutableBytesWritableimport org.apache.hadoop.hbase.mapred.TableOutputFormatimport org.原创 2020-09-17 15:44:59 · 598 阅读 · 0 评论 -
NoSuchColumnFamilyException :spark写入hbase报错
问题描述:spark程序往hbase中写入的时候报错,hbase中没有这个列族!解决:hbase中创建好列族。运行,成功!查看结果:原创 2020-09-17 14:41:34 · 408 阅读 · 0 评论 -
MapReduce读取hive数据,然后用hbase的bulkload方法导入hbase中
Driver类:HiveMapper类:打包,测试:结果查看:原创 2020-09-03 15:41:26 · 893 阅读 · 0 评论 -
Hue操作hbase、hive之创建表、删除表、查看数据
hue新建hbase表hue删除hbase表:前面方框选中后,点击上方Drop按钮删除表。hue查看hbase表数据:点击左侧表查看表数据原创 2020-08-28 12:42:42 · 2650 阅读 · 0 评论 -
mvn install报错:总是查找C盘下的.m2目录下的settings.xml文件
如图所示,执行mvn install:install-file -Dfile=XXX.jar -DgroupId=XXX -DartifactId=XXX -Dversion=XXX -Dpackaging=XXX命令时,报错,总是查找C盘下的.m2目录下的settings.xml文件。原因:默认总是先去找.m2目录下的settings.xml解决:先修改一下.m2目录下的settings.xml文件的名称,比如SSSetting.xml,使其找不到该文件。再次执行命令即可安装成功!..原创 2020-08-18 09:51:07 · 1343 阅读 · 1 评论 -
hive整合hbase之——如何把数据放到hbase?
整合:Hive与HBase整合的实现是利用两者本身对外的API接口互相通信来完成的,其具体工作交由Hive的lib目录中的hive-hbase-handler-*.jar工具类来实现,然后再hive shell使用整合命令创建hive表即可整合成功。通过Hive把数据加载到HBase中,数据源可以是文件也可以是Hive中的表。通过整合,让HBase支持JOIN、GROUP等SQL查询语法。不仅可完成HBase的数据实时查询,也可以使用Hive查询HBase中的数据完成复杂的数据分析。如何把数据放到h原创 2020-05-28 22:58:36 · 607 阅读 · 0 评论 -
Spark,hbase集群如何对jvm调优?
Spark:1. 对于垃圾回收的性能问题,首先要做的就是,使用高效的数据结构。 2. 持久化RDD时,使用序列化的持久化级别,而且使用Kyro序列化类库,这样partition就只是一个对象,一个字节数组。3. 给Eden区域分配更大的空间,使用-Xmn即可,通常建议给Eden区域,预计大小的4/3如果使用的是HDFS文件,那么很好估计Eden区域的大小,如果每个executor有4个task,然后每个hdfs压缩块解压缩后大小是3倍,此外每个hdfs块的大小是64M,那么Eden区域.原创 2020-05-28 22:58:42 · 203 阅读 · 0 评论 -
介绍hbase的协处理器
1.在0.92版本后新增,允许在region服务器上运行自己的代码,更准确地说是允许用户执行region级的操作,并且可以使用与RDBMS中触发器类似的功能。可理解为服务端的拦截器,可根据需求确定拦截点,再重写这些拦截点对应的方法,做到客户端的读取API配合筛选机制可控制返回的数据量,进一步优化,例,数据的处理流程直接放到服务器端执行,然后仅返回一个小的处理结果集。类似于一个小型的MapReduce 框架,该框架将工作分发到整个集群节点。2.处理器框架提供了两大类Observer、endPoint通过继原创 2020-05-28 22:58:51 · 254 阅读 · 0 评论 -
Hive和hbase的区别
hivehive是基于Hadoop的数据仓库工具,可以将结构化数据文件映射为数据库表。并提供简单的sql功能,可以将sql转化为mr任务运行。因为sql学习成本低,不必专门开发mr应用,十分适合数据仓库的统计分析。hbaseHBase是建立在HDFS之上,提供高可靠性的列存储,实时读写的数据库系统。它介于Nosql和关系型数据库之间,仅通过主键和主键的range来检索数据,仅支持单行事务。主要用来存储非结构化和半结构化的松散数据。区别Hive和Hbase是两种基于Hadoop的不同技术:原创 2020-05-29 09:57:24 · 681 阅读 · 1 评论 -
HBase如何设计rowkey,如何在负载均衡和读写性能之间做出平衡
由于在开始建表时,表只会有一个region,并随着region增大而拆分成更多的region,这些region才能分布在多个regionserver上从而使负载均分。对于写负载很大的业务,如果一开始所有负载都在一个regionserver上,则该regionserver会承受不了而导致数据丢失。因此,有必要在一开始就将HBase的负载均摊到每个regionserver。要将负载均摊,可用的方法就是建表时将表分区,将这些分区均匀地放到每个regionserver上,然后客户端在进行写操作的时候,将这些写操作均原创 2020-05-29 09:57:33 · 485 阅读 · 0 评论 -
HBase的读写机制
HBase写数据流程1、Client先访问zookeeper,从meta表获取相应region信息,然后找到meta表的数据2、根据namespace、表名和rowkey根据meta表的数据找到写入数据对应的region信息3、找到对应的regionserver4、把数据分别写到HLog和MemStore上一份5、MemStore达到一个阈值后则把数据刷成一个StoreFile文件。(若MemStore中的数据有丢失,则可以总HLog上恢复)6、当多个StoreFile文件达到一定.原创 2020-05-29 09:57:45 · 2680 阅读 · 0 评论 -
HBase的gc调优,为什么
大多数Hadoop客户以至少24G内存运行Hadoop,HBase使用的内存不断增长,但JDK可用的垃圾收集算法仍然相同。这导致了HBase的许多用户的一个主要问题:随着Java使用堆大小继续增长,垃圾回收导致的垃圾回收时停止程序所占用的时间变得越来越长。在垃圾回收导致的“stop-the-world”期间,任何到HBase客户端请求都不会被处理,造成用户可见的延迟,甚至超时。如果因为暂停导致请求超过一分钟响应,HBase本身也可能会停止.HBase依赖Apache Zookeeper的管理群集成员和生原创 2020-05-29 09:57:52 · 423 阅读 · 0 评论 -
HBase的启动和停止的命令
启动HBase集群:bin/start-hbase.sh单独启动一个HMaster进程:bin/hbase-daemon.sh start master单独停止一个HMaster进程:bin/hbase-daemon.sh stop master单独启动一个HRegionServer进程:bin/hbase-daemon.sh start regionserver单独停止一...原创 2020-02-27 20:41:10 · 1157 阅读 · 0 评论 -
从HBase中读取数据的三种方式
利用HBase的原生的APIHBase整合phonix,用jdbc的方式读取。HBase作为一个数据源,用spark.read读取数据源。原创 2020-05-12 15:27:33 · 1834 阅读 · 0 评论