HBase

最新推荐文章于 2020-11-23 03:27:15 发布

原来是阿付

最新推荐文章于 2020-11-23 03:27:15 发布

阅读量139

点赞数 1

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/weixin_42310289/article/details/85106993

本文探讨了HBase作为分布式列式数据库的角色，对比了HBase与Hive的功能定位，详细介绍了HBase的行键设计原则、底层存储格式HFile、扩展与负载均衡机制，以及读操作上的LRU缓存技术。

1.HBase是一个分布式的面向列的开源数据库。
2.结构化数据可以使用关系行数据库来表示和存储
非结构化数据就是没有固定结构的数据
半结构化数据可以通过灵活的键值调整获取相应的信息且数据的格式不固定。
3.nosql 数据库的产生户数为了解决大规模数据的集合，多重数据种类带来的挑战尤其是大数据应用难题。
4.常见的关系型数据库 db2 orcle mysql sqlserver
非关系型数据库 HB阿瑟 MongoDb redis
5.HBase的作用：存储大量结果集数据，并提供低延迟的随机查询
6.HBase与hive的区别？
Hive的定位是数据长款工具，虽然也有增删改，但是它增删改对应的是整张表而不是单行数据，查询的延迟较高。
HBase的定位是hadoop的数据库，是一个典型的nosql,所以HBase是迎来在大量数据中进行低延迟的随机查询。
7.行键的设计原则
唯一原则长度原则散列原则
8：HFile 是HBase使用的底层存储格式 HFile 对应于列族，一个列族可以有多个HFile，但是一个HFile不能存储对个列族的数据
9.HBase 扩展和负载均衡的基本单位是 region 。region 本质上是以行键排序的连续存储的区间。如果region太大，系统就会把他们动态拆分，相反的就把region 合并以减少存储文件数据
10：HBase在读操作上使用LRU缓存技术，这种缓存也叫做blockcache. blockcache 里面保存的是从HFile里读入内存的斌犯访问的数据，避免硬盘读，每个列族都有blockcache中的block是HBase从硬盘完成一次读取的数据单位