
hbase
文章平均质量分 80
大数据学习爱好者
想学好技术的年轻人
展开
-
第四讲-hbase的常见面试题和布隆过滤器
布隆过滤器1.布隆过滤器2. 1.布隆过滤器 它实际上是一个很长的二进制向量和一系列随机 映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。 布隆过滤器判断一个元素不在,肯定不在 判断元素在的话,再数据库在进行查询。 实现原理: 布隆过滤器的实现原理和hash表的数据原理差不多。数据通过hash函数将数据映射到某个地址。如果有冲突会( 拉链法、开放地址法)出处理数据冲突的。 布隆过滤器主要是 数据通过通过映射函数映射到多个二进制位上。当某个数据映射到多个二进制位有一个不为1,说明不存在。数据通过原创 2022-03-13 23:42:32 · 2308 阅读 · 0 评论 -
Hbase 基础第三讲底层原理
hbase 底层原理1.hbase 架构2.物理存储2.1整体物理结构 1.hbase 架构 Client职责 HBase有两张特殊表: .META.:记录了用户所有表拆分出来的的Region映射信息,.META.可以有多个Regoin -ROOT-:记录了.META.表的Region信息,-ROOT-只有一个Region,无论如何不会分裂。 ZooKeeper职责 1.ZooKeeper为HBase提供Failover机制,选举Master,避免单点Master单点故障问题 2.存储所有Region的寻原创 2022-03-13 22:46:26 · 2336 阅读 · 0 评论 -
Hbase 基础第二讲-javaApi
java API1.java api 操作hbase 1.java api 操作hbase public class HbaseDemoTest { // 声明静态配置 static Configuration conf = null; private static final String ZK_CONNECT_STR = "bigdata02:2181,bigdata03:2181,bigdata04:2181,bigdata05:2181";原创 2022-03-11 16:56:12 · 853 阅读 · 0 评论 -
Hbase 基础第一讲-基本原理
基本原理1.Hbase概述1.1 什么是Hbase?1.2 hbase 特点1.3 Hbase 核心物理概念 1.Hbase概述 1.1 什么是Hbase? HBase 是建立在 HDFS之上,高可靠性、高性能、列存储、多版本的 NoSQL 的分布式数据存储系统,实现对大型数据的实时、随机的读写访问。 1.2 hbase 特点 库: 1、高并发,解决海量数据集的随机实时增删改查 2、HBase本质依然是Key-Value数据库,不支持join等复杂操作 3、不支持复杂的事务,只支持行级事务 4、HBas原创 2022-03-11 09:18:35 · 198 阅读 · 0 评论 -
Hive第三讲 调优
hive 调优1.调优概述1、Hive的建表设计层面1.1利用分区表优化1.2 利用分桶表优化1.3 选择合适的文件存储格式1.4 选择合适的压缩格式2、HQL语法和运行参数层面2.1.查看Hive执行计划2.2列裁剪2.3 分区裁剪2.4 谓词下推 1.调优概述 Hive调优的作用:在保证业务结果不变的前提下,降低资源的使用量,减少任务的执行时间。 1、Hive的建表设计层面 1.1利用分区表优化 当一个 Hive 表的查询大多数情况下,会根据某一个字段进行筛选时,那么非常适合创建为分区表,该字段即为分原创 2022-03-02 22:40:37 · 529 阅读 · 0 评论 -
Hbase--5
1.定义 行式数据库是按照行存储的,行式数据库擅长随机读操作不适合用于大数据。像SQL server,Oracle,mysql等传统的是属于行式数据库范畴。 列式数据库从一开始就是面向大数据环境下数据仓库的数据分析而产生 作者:jackLee 链接:https://www.jianshu.com/p/ad2533e5cfaa 来源:简书 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注...原创 2019-11-29 13:58:37 · 142 阅读 · 0 评论 -
Hbase面试题4
1.Hbase与Hive 整合? Hive 在一般的使用中,通过把hive语句通过driver转化成mapreducer执行,但是与hbase整合后,通过hiveStorageHandler将hive语句解析映射到Hbase集群。 如果某表hbase已经存在但是在hive中不存在相关信息,适合创建外部表,如果在hive中已经有相关信息,适合创建内部表。 ...原创 2019-09-14 17:44:46 · 214 阅读 · 0 评论 -
Hbase面试3
1.HBase简单读写流程 读: 找到要读取数据的region所在的RegionServer,然后按照以下顺序进行读取:先去BlockCache读取,若BlockCache没有,则到Memstore读取,若MemStore中没有,则到HFile中读取。 写: 找到要写入数据的region所在的RegionServer,然后将数据先写到WAL中,然后再将数据写到MemStore等待刷新,回复客户端写...原创 2019-09-05 00:26:18 · 181 阅读 · 0 评论 -
Hbase--面试题2
1.Hbase中master进行负载均衡算法? 全局、随机、批量启动。 2.hbase的特点? 1.hbase是一个分布式基于列存储的数据库,基于hadoop的hdfs存储,zookeeper进行管理。 2.hbase适合存储半结构化或者非结构化数据 3.hbase 为null 的记录不会被存储 4.基于表包含rowkey,时间戳,和列族。新写入数据时,时间戳更新,同时可以查询到以前的版本 5.h...原创 2019-08-11 14:36:48 · 460 阅读 · 0 评论 -
hbase--面试题
1.简单叙述hbase? HBase是一个分布式的、面向列的开源非关系型数据库,列式存储可以解决数据的稀疏性,节省存储的开销。底层依赖于hdfs,使用hdfs作为底层存储系统。hbase主要用于存储非结构化和半结构化数据,依赖hdfs。hbase使用LSM树来作为底层的存储结构。提供了WAL和replication机制,具有很好的可靠性。 2.hbase的底层体系结构 主要模块是zookeepe...原创 2019-08-07 00:23:02 · 701 阅读 · 0 评论