
大数据---Hbase
yinni11
这个作者很懒,什么都没留下…
展开
-
HBase--入门
自1970年以来,关系数据库用于数据存储和维护有关问题的解决方案。大数据的出现后,好多公司实现处理大数据并从中受益,并开始选择像Hadoop的解决方案。Hadoop使用分布式文件系统,用于存储大数据,并使用MapReduce来处理。Hadoop擅长于存储各种格式的庞大的数据,任意的格式甚至非结构化的处理。Hadoop的限制Hadoop只能执行批量处理,并且只以顺序方式访问数据。这意...转载 2018-12-17 17:45:54 · 178 阅读 · 0 评论 -
Hadoop、Hive、Spark 之间关系
大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。大数据,首先你要能存的下大数据传统的文件系统是单机的,不能横跨不同的机...转载 2019-01-10 11:32:28 · 236 阅读 · 0 评论 -
Hbase深入浅出
HBase 是一种类似于数据库的存储层,也就是说 HBase 适用于结构化的存储。并且 HBase 是一种列式的分布式数据库。HBase 底层依旧依赖 HDFS 来作为其物理存储,这点类似于 Hive。Hive 一般只要有 Hadoop 便可以工作。HBase 相关的模块以及 HBase 表格的特性在这里,让我们了解下 HBase 都有哪些模块,以及大致的工作流程。前面我们提到过 HBas...转载 2019-03-26 20:54:12 · 315 阅读 · 0 评论 -
HBase 深入浅出的学习
数据在 RDBMS 中的排布示例ID 姓 名 密码 时间戳 1 张 三 111 20160719 2 李 四 222 20160720 那么数据在 HBase 中的排布会是什么样子呢?如表 3 所示(这只是逻辑上的排布)。表 3. 数据在 HBase 中的排布(逻辑上)Row-Key Value(...转载 2019-04-28 21:32:02 · 337 阅读 · 0 评论 -
Hbase深入浅出学习之HBase 相关的模块以及 HBase 表格的特性
每一个 Region 都只存储一个 Column Family 的数据,并且是该 CF 中的一段(按 Row 的区间分成多个 Region)。Region 所能存储的数据大小是有上限的,当达到该上限时(Threshold),Region 会进行分裂,数据也会分裂到多个 Region 中,这样便可以提高数据的并行化,...转载 2019-04-29 17:53:48 · 134 阅读 · 0 评论 -
HBase Rowkey的散列与预分区设计
http://www.cnblogs.com/bdifn/p/3801737.html转载 2019-04-29 17:59:05 · 321 阅读 · 0 评论 -
hbase的查询scan功能注意点(setStartRow, setStopRow)
hbase的scan查询功能注意项:Scan scan = new Scan();scan.setStartRow(“5193:”);scan.setStopRow(“5194:”);ResultScanner result = table.getScanner(scan);for (Result r : result) { get it......}查找...转载 2019-05-08 10:27:38 · 480 阅读 · 0 评论 -
hbase row count (行计数)
hbase 行计数方法一://行计数 public static long rowCount(String tableName) { long rowCount = 0; @SuppressWarnings("resource") AggregationClient aggregationClient = new Aggregation...转载 2019-05-09 11:36:26 · 395 阅读 · 0 评论 -
HbaseClient Scan类中setStartRow()和setStopRow()的使用
HbaseClient Scan类中setStartRow()和setStopRo()的使用这两个函数就是设置scan的起始位置、终止位置(exclusive)。假设test表中存储着如下RowKey:12Aabb3aabbAabbaabb运行如下代码: Scan scan = new Scan(); scan.setStartRow(...转载 2019-05-07 19:18:15 · 3729 阅读 · 0 评论 -
大数据的四个核心问题
学习大数据不可避免地会用到Hadoop、Hive、Spark等内容,也很有必要去归类、整理和比较它们之间的异同与关系。无论是Hadoop还是Spark或是其他大数据处理工具,归根结底还是要面向大数据的四个核心问题。1.数据的存储(big data storage),海量数据需要处理和分析,但前提是要进行有效的存储。稍后会提到Hadoop(HDFS)分布式文件系统对超大数据集的容错性问题。2...转载 2019-01-10 11:29:33 · 4664 阅读 · 0 评论 -
在HBase数据库创建表
要通过Java在HBase中创建一个数据表,首先需要导入hbase-client.jar驱动包。可以在项目pom.xml配置文件中添加依赖:<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId>...转载 2019-01-09 21:10:02 · 3075 阅读 · 0 评论 -
Hbase的命名空间namespace操作
1、介绍在HBase中,namespace命名空间是对一组表的逻辑分组,类似RDBMS中的database,方便对表在业务上划分。Apache HBase从0.98.0, 0.95.2两个版本开始支持namespace级别的授权操作,HBase全局管理员可以创建、修改和回收namespace的授权。 2、namespaceHBase系统默认定义了两个缺省的namespacehbas...转载 2019-01-09 21:01:14 · 1743 阅读 · 0 评论 -
Hbase和Hive的区别
Hbase和Hive在大数据架构中处在不同位置,Hbase主要解决实时数据查询问题,Hive主要解决数据处理和计算问题,一般是配合使用。一、区别:Hbase: Hadoop database 的简称,也就是基于Hadoop数据库,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日志明细、交易清单、轨迹行为等。 Hive:Hive是Hado...转载 2018-12-17 19:36:03 · 389 阅读 · 0 评论 -
Hbase的API地址
https://hbase.apache.org/apidocs/转载 2019-01-08 17:40:18 · 251 阅读 · 0 评论 -
Hbase的理论概述,Hbase的架构原理和应用场景*******
关于HBase环境搭建和java操作,请见笔者相关博客。1.概述 HBase是一个分布式的、面向列的开源数据库,HBase的成熟应用归功于Google论文“Bigtable:一个结构化数据的分布式存储系统”。利用HBase技术可在廉价PC Server上搭建起大规模存储集群。Hbase的名字的来源是Hadoop database,即hadoop数据库。...转载 2019-01-09 11:01:27 · 198 阅读 · 0 评论 -
Hbase的shell命令
1、打开Hbase shellhadoop@ubuntu:/usr$ hbase shell2、查询表Listhbase(main):001:0> list3、查询HBase版本。hbase(main):010:0> version现在所在的Hbase的版本号为:1.2.0-cdh5.7.04、查询服务器状态hbase(main):010:0> sta...原创 2018-12-20 11:56:44 · 213 阅读 · 0 评论 -
HBase Java API --- HBase 1.2.5 Java API教程
虽然现在项目中用的Hbase的版本是V1.3.1,但是1.2.5版本中的API还是有参考价值的关于HBase 1.2 安装&使用参考:HBase Reference Guide。本文重点讲解 HBase 1.2.5 Java API使用。HBase APIHBase 1.2 API 常用类:使用org.apache.hadoop.hbase.client.Connectio...转载 2019-01-09 11:56:06 · 329 阅读 · 0 评论 -
关于HBase 中Scan扫描的优化(重要)
Hbase只能要么按照主键范围查询,要么全表检索。只能使用这两种查询1、由于Scan是全表扫描,任何时候,在使用Scan一定要加上StartRowKey和StopRowKey,限定扫描的范围。3333333_Filterprefilter3333333_111113333333_222123333334_3333333_startrowkey3333...转载 2019-01-09 20:04:07 · 2738 阅读 · 0 评论 -
Hadoop中的发展历史
Hadoop使用分布式文件HDFS系统,用于存储大数据(数据至少要到TB吧)。 在最初版本的Hadoop,使用MapReduce来做计算处理。使用yarn来做资源的调度。使用磁盘空间作为计算。因为MapReduce比较笨重,用同样是计算框架的spark来替代MapReduce。因为Spark只是计算框架,不具备Hadoop环境的HDFS系统等。所以业界都是采用Hadoop+Spark来做大数据计算...原创 2019-01-09 20:28:31 · 561 阅读 · 1 评论 -
HBase Java API - HBase(五):HBase基本API操作之CRUD
import java.io.IOException;import java.util.Arrays;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil...转载 2019-01-09 17:28:55 · 435 阅读 · 0 评论 -
理解Hbase RowKey的字典排序,以及设计
理解Hbase RowKey的字典排序,以及设计写点自己的理解和实践。HBase是三维有序存储的,是指rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度是依照ASCII码表排序的。(比如A排在a前面)先rowkey升序排序,rowkey相同则column key升序排序rowkey、column ke...转载 2019-05-07 19:26:44 · 814 阅读 · 0 评论