
hbase
文章平均质量分 52
飞鸟zjs
这个作者很懒,什么都没留下…
展开
-
详细讲解Hadoop中的一个简单数据库HBase
HBase是 Hadoop中的一个简单数据库。它与Google的Bigtable特别相似,但也存在许多的不同之处。 数据模型 HBase数据库使用了和 Bigtable非常相似的数据模型。用户在表格里存储许多数据行。每个数据行都包括一个可排序的关键字,和任意数目的列。表格是稀疏的,所以同一个表格 里的行可能有非常不同的列,只要用户喜欢这样做。 列名是“:”形式,其中和可以是任意字转载 2015-08-24 12:47:16 · 665 阅读 · 0 评论 -
HBase表设计原则整理
1、列簇的设计 列簇尽量少,最好不超过3个。因为每个列簇是存在一个独立的HFile里的,flush和compaction操作都是针对一个Region进行的,当一个列簇的数据很多需要flush的时候,其它列簇即使数据很少也需要flush,这样就产生的大量不必要的io操作。在多列簇的情况下,注意各列簇数据的数量级要一致。如果两个列簇的数量级相差太大,会使数量级少的列簇的数据扫描效率低下。将经常转载 2015-08-24 16:03:55 · 869 阅读 · 0 评论 -
mapreduce读取hbase中表的数据,直接打印或者回传数据到hbase数据库表
package com.syyz.zjs; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.client.Put; import or原创 2015-08-25 18:58:07 · 1037 阅读 · 0 评论 -
Hbase优化
1,预分区。因为第一次建表的时候会自动创建一个region分区.如果再倒入数据的话,因为一开始没有数据,不会split切分,这样会对单个region server造成比较大的io开销,所以需要预分区。预分区可以根据热点范围的rowkey来制定分区策略。 2,通过rowkey检索数据的时候,需要制定column,这个比较好理解,和关系型数据库的sql优化一样,select * from table原创 2015-08-25 19:20:19 · 611 阅读 · 0 评论 -
如何设置hive与hbase同步
hive和hbase同步 https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration 1、把hive-hbase-handler-1.2.1.jar cp到hbase/lib 下 同时把hbase中的所有的jar,cp到hive/lib 2、在hive的配置文件增加属性:hive.site.xml hb原创 2015-08-30 14:03:28 · 1307 阅读 · 1 评论