
hbase
空中的鱼1987
这个作者很懒,什么都没留下…
展开
-
hbase 与 hive 结合
前置条件hadoop hive hbase环境搭建完成。搭建版本hadoop-1.0.3hive-0.9.0hbase-0.94.2zookeeper-3.3.5步骤配置hive xml,配置hbase与hive结合包 hive.aux.jars.path file:///usr/local/hive-0.9.0/lib/hive-hbase-handler-0.9.0.原创 2016-07-13 17:23:12 · 249 阅读 · 0 评论 -
hbase 双网卡 多网卡
官方issue未解决,不支持多网卡https://issues.apache.org/jira/browse/HBASE-2502?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel但参看hbase可以regionserver、zookeeper可以指定网卡:http://search-hado...原创 2012-12-06 14:09:15 · 198 阅读 · 0 评论 -
HBase数据查询之常规查询
简述订单常规查询用到的字段可能有:店铺id、订单创建时间(不变量)、订单id、订单状态等等。如下设计适用场景:a.dp_id+created段查询(+状态或者其他filter条件) b.tid查询表设计分两张表:1.用于常规查询表,rowkey:dp_id+created+tid cf:sta...2013-12-20 16:40:11 · 739 阅读 · 0 评论 -
HBase数据查询之Coprocessor
二级索引方案 协处理器的概念、作用和类型不介绍,可以参看:http://www.cnblogs.com/ventlam/archive/2012/10/30/2747024.html,官方blog:https://blogs.apache.org/hbase/entry/coprocessor_introduction 协处理器其中的一个作用是使用Observer创建二...原创 2013-12-20 16:41:12 · 194 阅读 · 0 评论 -
security cdh mapreduce access hbase
执行mapreduce的用户必须是可以访问hdfs相应目录和执行mapreduce的账户,例如hive。指定hive的节点kinit获取执行权限在mapreduce main代码中加入访问hbase的权限,例如:import java.io.IOException;import org.apache.hadoop.hbase.HBaseConfiguration;impor...原创 2014-12-02 15:09:17 · 144 阅读 · 0 评论 -
hbase搭建
.rootdirhdfs://master:8020/hbaseThe directory shared by region servers and intowhich HBase persists. The URL should be 'fully-qualified'to include the filesystem scheme. For example, to specify theHDFS directory '/hbase' where the HDFS instance's原创 2012-11-27 11:43:11 · 114 阅读 · 0 评论 -
hbase 与 hive 结合
[code="xml"] hive.aux.jars.path file:///usr/local/hive-0.9.0/lib/hive-hbase-handler-0.9.0.jar,file:///usr/local/hive-0.9.0/lib/hbase-0.94.2.jar,file:///usr/local/hive-0.9.0/lib/zookeeper-3.3.5.jar[/code]将hbase-0.94.2.jar 、zookeeper-3.3.5.原创 2012-11-29 16:15:29 · 89 阅读 · 0 评论 -
sqoop hbase导入并与hive结合
name --column-family info --split-by tid[/code][b]hbae创建表语句[/b][code="sql"]create 'trade','info'[/code][b]hive创建表语句[/b][code="sql"]CREATE EXTERNAL TABLE hbase_trade(tid string,dp_id string,created string,modified s原创 2012-11-29 17:23:19 · 123 阅读 · 0 评论 -
java.lang.ClassNotFoundException: org.apache.hadoop.hive.hbase.HBaseSplit
:org.apache.hadoop.hive.hbase.HBaseSplit at org.apache.hadoop.hive.ql.io.HiveInputFormat$HiveInputSplit.readFields(HiveInputFormat.java:146) at org.apache.hadoop.io.serializer.WritableSerialization$WritableDeserializer.deserialize(WritableSerialization原创 2012-12-03 11:19:43 · 962 阅读 · 0 评论 -
hive结合hbase数据处理解决方案测评
原创 2012-12-03 17:19:27 · 142 阅读 · 0 评论 -
python hbase
.apache.org/docs/install/[/url],执行sudo apt-get install libboost-dev libboost-test-dev libboost-program-options-dev libevent-dev automake libtool flex bison pkg-config g++ libssl-dev [*]root账户下,先后执行./configure、make、make install[/list]安装python thrift链接原创 2012-12-04 17:20:52 · 119 阅读 · 0 评论 -
hive结合hbase数据处理解决方案测评二(优化篇)
sert overwrite table hive_table select a,b,c,d from hbase_table;[/code][b]全字段切表[/b][code="sql"]insert into table test_table partition(part='aa') select * from hbase_table;[/code][b]hive至hive切表[/b][code="sql"]create table test_ta原创 2012-12-06 09:41:15 · 150 阅读 · 0 评论 -
hbase 双网卡 多网卡
zookeeper可以指定网卡:http://search-hadoop.com/m/la35qci6P21/hbase+dns&subj=hbase+host+dns+ip+and+route+for+multi+network+interface+cardhbase集群配置时出现,部分节点不能存数据的情况,即部分节点没有region,因为该节点有多网卡,其中有网卡没有插网线却配置了ip。将没用的网卡关闭,或者将无用ip清理即可。原创 2012-12-06 14:09:15 · 178 阅读 · 0 评论 -
hello hbase
原创 2013-04-22 17:57:31 · 86 阅读 · 0 评论 -
HBase数据查询之常规查询
者其他filter条件) b.tid查询表设计分两张表:1.用于常规查询表,rowkey:dp_id+created+tid cf:status:value cf:buyer_nick:value...。查询条件的必须输入项有:created开始时间和结束时间。可有可无项:cf(列簇)中的字段,用于filter过滤。该表属于长表,字段数不多,占存储不大。 当dp_id不均衡时,可使用hash(dp_id)2013-12-20 16:40:11 · 162 阅读 · 0 评论 -
HBase数据查询之Coprocessor
/entry/coprocessor_introduction 协处理器其中的一个作用是使用Observer创建二级索引。先举个实际例子: 我们要查询指定店铺指定客户购买的订单,首先有一张订单详情表,它以被处理后的订单id作为rowkey;其次有一张以客户nick为rowkey的索引表,结构如下:rowkey familydp_id+buy_nick1 tid1:null tid2:null ...dp_id+buy_nick2 tid3:null ..原创 2013-12-20 16:41:12 · 89 阅读 · 0 评论 -
hive结合hbase数据处理解决方案测评二(优化篇)
接上一篇,对hbase参数进行优化,主要是调整与查询效率相关的参数[b]count[/b][code="sql"]select count(1) from hbase_table;[/code][b]部分字段切表[/b][code="sql"]insert overwrite table hive_table select a,b,c,d from hbase_table;[/co...原创 2012-12-06 09:41:15 · 284 阅读 · 0 评论 -
python hbase
[b]需求[/b]将文本数据导入至hbase中。[b]安装thrift[/b][list][*]下载[url]http://thrift.apache.org/download/[/url],并解压[*]我使用ubuntu系统,参考[url]http://thrift.apache.org/docs/install/[/url],执行sudo apt-get install l...原创 2012-12-04 17:20:52 · 137 阅读 · 0 评论 -
java.lang.ClassNotFoundException: org.apache.hadoop.hive.hbase.HBaseSplit
hive关联hbase表,使用select count(*) from tablename报如下异常:java.io.IOException: Cannot create an instance of InputSplit class = org.apache.hadoop.hive.hbase.HBaseSplit:org.apache.hadoop.hive.hbase.HBaseSpl原创 2016-07-13 17:23:37 · 5830 阅读 · 0 评论 -
hive结合hbase数据处理解决方案测评
前言我们考虑为什么要将hive与hbase结合,出于hbase有唯一主键的缘故可以将其作为存储,顺手能帮我们完成海量数据“去重”的etl处理,而hive能作为我们统计计算。两者结合简直就是双剑合臂~~,但效果怎么样呢?目的基于多种hiveSQL去重方式失败后,考虑过使用mysql做近期数据去重的方式,然而不能满足全量去重的业务需求,所以考虑使用hbase的唯一主键来达到全量“去重”的效果。原创 2016-07-13 17:23:46 · 947 阅读 · 0 评论 -
python hbase
需求将文本数据导入至hbase中。安装thrift下载http://thrift.apache.org/download/,并解压我使用ubuntu系统,参考http://thrift.apache.org/docs/install/,执行sudo apt-get install libboost-dev libboost-test-dev libboost-program-option原创 2016-07-13 17:23:56 · 528 阅读 · 0 评论 -
hive结合hbase数据处理解决方案测评二(优化篇)
接上一篇,对hbase参数进行优化,主要是调整与查询效率相关的参数countselect count(1) from hbase_table;部分字段切表insert overwrite table hive_table select a,b,c,d from hbase_table;全字段切表insert into table test_table partition(part='a原创 2016-07-13 17:24:06 · 1473 阅读 · 0 评论 -
hbase 双网卡 多网卡
官方issue未解决,不支持多网卡https://issues.apache.org/jira/browse/HBASE-2502?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel但参看hbase可以regionserver、zookeeper可以指定网卡:http://search-hadoop.c原创 2016-07-13 17:24:13 · 1155 阅读 · 0 评论 -
hello hbase
前言近半年本人主要在倒腾数据,遇到海量数据去重的难题,曾经尝试过各种hivesql,然而随着数据量逐渐增大,处理耗时也越来越长,各种方案一一破产。2012年11月份提过使用HBase唯一主键的方案,随即做了相关预研(参看hive&hbase解决方案测评)。该方案由于HBase转化成hive表性能问题而搁浅。但在测评报告最后的总结中提到:或许我们可以选择数据“冷热”、以及部分字段切表来优化。2原创 2016-07-13 17:25:07 · 377 阅读 · 0 评论 -
HBase数据查询之常规查询
简述订单常规查询用到的字段可能有:店铺id、订单创建时间(不变量)、订单id、订单状态等等。如下设计适用场景:a.dp_id+created段查询(+状态或者其他filter条件) b.tid查询表设计分两张表:1.用于常规查询表,rowkey:dp_id+created+tid cf:status:value c原创 2016-07-13 17:26:25 · 3156 阅读 · 0 评论 -
security cdh mapreduce access hbase
执行mapreduce的用户必须是可以访问hdfs相应目录和执行mapreduce的账户,例如hive。指定hive的节点kinit获取执行权限在mapreduce main代码中加入访问hbase的权限,例如:import java.io.IOException;import org.apache.hadoop.hbase.HBaseConfiguration;import org.原创 2016-07-13 17:29:08 · 541 阅读 · 0 评论 -
mapreduce mapper access security hbase
环境:security cdh 5.2.0security hbase启动mapreduce的账户为hive或者others(非hbase),如下假设以bi账户为例 出发点:mapper/reduce程序中读取hbase中数据,或者写入hbase数据 踩过的坑:在mapreduce的job创建过程中加入如下认证代码UserGroupInformation.s原创 2016-07-13 17:30:07 · 455 阅读 · 0 评论 -
hello hbase
前言近半年本人主要在倒腾数据,遇到海量数据去重的难题,曾经尝试过各种hivesql,然而随着数据量逐渐增大,处理耗时也越来越长,各种方案一一破产。2012年11月份提过使用HBase唯一主键的方案,随即做了相关预研(参看hive&hbase解决方案测评)。该方案由于HBase转化成hive表性能问题而搁浅。但在测评报告最后的总结中提到:或许我们可以选择数据“冷热”、以及部分字段切表来优化。...原创 2013-04-22 17:57:31 · 201 阅读 · 0 评论 -
hbase搭建
[list][*]前置条件[/list]hadoop环境运行正常。[list][*]步骤[/list]下载hbase压缩包hbase-0.94.2.tar.gz,并解压tar -zxvf *.gz配置hbase-site.xml[code="xml"]hbase.rootdirhdfs://master:8020/hbaseThe director...原创 2012-11-27 11:43:11 · 145 阅读 · 0 评论 -
hbase 与 hive 结合
[b]前置条件[/b]hadoop hive hbase环境搭建完成。[b]搭建版本[/b]hadoop-1.0.3hive-0.9.0hbase-0.94.2zookeeper-3.3.5[b]步骤[/b]配置hive xml,配置hbase与hive结合包[code="xml"] hive.aux.jars.path file:///usr/loca...原创 2012-11-29 16:15:29 · 119 阅读 · 0 评论 -
sqoop hbase导入并与hive结合
[b]sqoop语句[/b]以tid为主键,info为列族[code="html"]sqoop import --connect jdbc:mysql://ip/taobao_db --username hive --password 123456 --table mysql_table_name --hbase-table hbase_table_name --column-family...原创 2012-11-29 17:23:19 · 447 阅读 · 0 评论 -
java.lang.ClassNotFoundException: org.apache.hadoop.hive.hbase.HBaseSplit
hive关联hbase表,使用select count(*) from tablename报如下异常:[code="html"]java.io.IOException: Cannot create an instance of InputSplit class = org.apache.hadoop.hive.hbase.HBaseSplit:org.apache.hadoop.hive....原创 2012-12-03 11:19:43 · 1194 阅读 · 0 评论 -
hive结合hbase数据处理解决方案测评
[b]前言[/b]我们考虑为什么要将hive与hbase结合,出于hbase有唯一主键的缘故可以将其作为存储,顺手能帮我们完成海量数据“去重”的etl处理,而hive能作为我们统计计算。两者结合简直就是双剑合臂~~,但效果怎么样呢?[b]目的[/b]基于多种hiveSQL去重方式失败后,考虑过使用mysql做近期数据去重的方式,然而不能满足全量去重的业务需求,所以考虑使用hbase的唯...原创 2012-12-03 17:19:27 · 205 阅读 · 0 评论 -
security cdh mapreduce access hbase
原创 2014-12-02 15:09:17 · 76 阅读 · 0 评论