
Hbase
文章平均质量分 68
wbj0110
这个作者很懒,什么都没留下…
展开
-
HBase 系统架构
HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的,分布式的,多版本的,面向列的存储模型。它存储的是松散型数据。HBase特性:1 高可靠性2 高效性3 面向列4 可伸缩5 可在廉价PC Server搭建大规模结构化存储集群HBase是Google BigTable的...原创 2014-04-26 09:22:47 · 78 阅读 · 0 评论 -
(HBase+Lucene)
1、核心工具类package junit;import java.io.BufferedWriter;import java.io.File;import java.io.FileWriter;import java.io.IOException;import java.util.List;import java.util.Map;import ...原创 2014-07-10 10:11:23 · 139 阅读 · 0 评论 -
hbase shell 基础和常用命令详解
HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。1. 简介HBase是一个分布式的、面向列的开源数据库,源...原创 2014-07-10 10:10:53 · 108 阅读 · 0 评论 -
HBase的rowkey设计
HBase的查询实现只提供两种方式:1、按指定RowKey获取唯一一条记录,get方法(org.apache.hadoop.hbase.client.Get)2、按指定的条件获取一批记录,scan方法(org.apache.hadoop.hbase.client.Scan) 实现条件查询功能使用的就是scan方式,scan在使用时有以下几点值得注意:1、scan可以通过set...原创 2014-07-09 12:11:02 · 111 阅读 · 0 评论 -
hbase表结构设计研究
因为一直在做hbase的应用层面的开发,所以体会的比较深的一点是hbase的表结构设计会对系统的性能以及开销上造成很大的区别,本篇文章先按照hbase表中的rowkey、columnfamily、column、timestamp几个方面进行一些分析。最后结合分析如何设计一种适合应用的高效表结构。 1、表的属性 (1)最大版本数:通常是3,如果对于更新比较频繁的应用完全...原创 2014-07-09 12:04:44 · 135 阅读 · 0 评论 -
Java操作Hbase进行建表、删表以及对数据进行增删改查,条件查询
1、搭建环境 新建JAVA项目,添加的包有: 有关Hadoop的hadoop-core-0.20.204.0.jar 有关Hbase的hbase-0.90.4.jar、hbase-0.90.4-tests.jar以及Hbase资源包中lib目录下的所有jar包 2、主要程序 Java代码 package com.wujintao.hb...原创 2014-07-08 20:12:55 · 131 阅读 · 0 评论 -
使用HBase EndPoint(coprocessor)进行计算
如果要统对hbase中的数据,进行某种统计,比如统计某个字段最大值,统计满足某种条件的记录数,统计各种记录特点,并按照记录特点分类(类似于sql的group by)~常规的做法就是把hbase中整个表的数据scan出来,或者稍微环保一点,加一个filter,进行一些初步的过滤(对于rowcounter来说,就加了FirstKeyOnlyFilter),但是这么做来说还是会有很大的副作用,比...原创 2014-07-02 09:26:47 · 302 阅读 · 0 评论 -
HBase利用bulk load批量导入数据
OneCoder只是一个初学者,记录的只是自己的一个过程。不足之处还望指导。看网上说导入大量数据,用bulk load的方式效率比较高。bulk load可以将固定格式的数据文件转换为HFile文件导入,当然也可以直接导入HFile文件。所以OneCoder最开始考虑的生成HFile文件供HBase导入,不过由于手太新,一直没有搞定。参考了很多网上的代码也没跑通。暂时搁浅。后来OneC...原创 2014-07-01 09:28:40 · 123 阅读 · 0 评论 -
HBase Thrift 接口的一些使用问题及相关注意事项
HBase对于非Java语言提供了Thrift接口支持,这里结合对HBase Thrift接口(HBase版本为0.92.1)的使用经验,总结其中遇到的一些问题及其相关注意事项。1. 字节的存放顺序HBase中,由于row(row key和column family、column qualifier、time stamp)是按照字典序进行排序的,因此,对于short、int、long等...原创 2014-02-12 10:19:50 · 160 阅读 · 0 评论 -
Hbase shell 常用命令
下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下:名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录 put '表名称', '行名称', '列名称:', '值'查看记录ge...原创 2014-06-18 13:18:08 · 100 阅读 · 0 评论 -
【HBase】Rowkey设计
本章将深入介绍由HBase的存储架构在设计上带来的影响。如何设计表、row key、column等等,尽可能地使用到HBase存储上的优势。Key设计HBase有两个基础的主键结构:row key和column key。它们分别用来表征存储的数据和数据的排序顺序。以下的几节将讨论如何通过key设计解决存储设计中发现的一些问题。概念相比于物理存储,首先谈谈表的逻辑结构。与传统的面...原创 2014-07-10 10:11:45 · 161 阅读 · 0 评论 -
HBase Java客户端编程
本文以HBase 0.90.2为例,介绍如何在Windows系统,Eclipse IDE集成环境下,使用Java语言,进行HBase客户端编程,包含建立表、删除表、插入记录、删除记录、各种方式下的查询操作等。1. 准备工作1、下载后安装jdk包(这里使用的是jdk-6u10-rc2-bin-b32-windows-i586-p-12_sep_2008);2、下载eclipse,...原创 2014-02-24 10:57:41 · 107 阅读 · 0 评论 -
HBase 默认配置
HBase 默认配置该文档是用hbase默认配置文件生成的,文件源是 hbase-default.xml (因翻译需要,被译者修改成中文注释).hbase.rootdir这 个目录是region server的共享目录,用来持久化Hbase。URL需要是'完全正确'的,还要包含文件系统的scheme。例如,要表示hdfs中的 '/hbase'目录,namenode 运行在namen...原创 2013-11-04 08:46:55 · 107 阅读 · 0 评论 -
HBase在内容推荐引擎系统中的应用
Facebook放弃Cassandra之后,对HBase 0.89版本进行了大量稳定性优化,使它真正成为一个工业级可靠的结构化数据存储检索系统。Facebook的Puma、Titan、ODS时间序列监控系统都使用HBase作为后端数据存储系统。在国内公司的一些项目中也用到了HBase。HBase隶属于Hadoop生态系统,从设计之初就十分注重系统的扩展性,对集群的动态扩展、负载均衡、容错、...原创 2014-03-26 09:58:05 · 103 阅读 · 0 评论 -
eBay readies next generation search built with Hadoop and HBase
eBay presented a keynote at Hadoop World, describing the architecture of its completely rebuilt search engine, Cassini, slated to go live in 2012. It indexes all the content and user metadata to pro...原创 2013-10-13 13:04:06 · 145 阅读 · 0 评论 -
Region Server意外退出
集群突然nagios报出一台regionserver挂了。顿时忙碌起来。上去一看,从log中看到这样一条信息 ERROR org.apache.hadoop.hbase.regionserver.HRegionServer: ZooKeeper session expired之后, regionserver就理直气壮地退出了。于是查了下代码,看到了在org.apache.had...转载 2013-09-30 09:26:54 · 133 阅读 · 0 评论 -
hbase安装(hbase-0.90.5+hadoop0.20.2)
所有操作均使用grid账户 1、下载 hbase*** 用什么版本的hadoop,就用什么版本的hbase (下载解压后得到 hadoop-core-0.20-append-r1056497.jar, 然后查看MANIFEST.MF,可得到hadoop版本的支持信息)***下载地址:mirror.bjtu.edu.cn/apache/hbase使用版本:hbase-0.90.5.tar.g...原创 2013-09-30 09:23:11 · 244 阅读 · 0 评论 -
HBase – 基于Hadoop的分布式数据库
wget http://mirrors.cnnic.cn/apache/zookeeper/zookeeper-3.4.5/zookeeper-3.4.5.tar.gztar -xzvf zookeeper-3.4.5.tar.gzcd zookeeper-3.4.5cp conf/zoo_sample.cfg conf/zoo.cfgvi conf/zoo.cfg 修改:d...原创 2014-03-10 09:30:37 · 264 阅读 · 0 评论 -
ubuntu下hbase的伪分布式安装与配置
1.hadoop版本:hadoop-1.1.1,HBase版本:hbase-0.94.32.到官方网站下载好hbase-0.94.3.tar.gz,解压hbase安装包到一个可用目录如(/home/hadoop/hbase-0.94.3/)root@ubuntu:/home/hadoop# sudo tar zxvf hbase-0.94.3.tar.gz设置hbase-0.94.3所在...原创 2014-02-24 10:58:49 · 127 阅读 · 0 评论 -
java.lang.IllegalAccessError: tried to access field org.slf4j.impl.StaticLoggerB
java.lang.IllegalAccessError: tried to access field org.slf4j.impl.StaticLoggerBinder.SINGLETON from class org.slf4j.LoggerFactory 问题原因:jar文件版本冲突在slf4j-log4j12(slf4j-nop.jar, slf4j-simple.jar,...原创 2014-02-24 10:58:14 · 764 阅读 · 0 评论 -
hadoop中的数据序列化及数据类型
序列化是干什么用的?本质上讲,就是数据保存到虚拟机之外,然后又被读到虚拟机内.如果仅仅是保存,不关心能读进jvm的话,就不关心序列化问题了.正是因为需要被读进jvm,所以必须识别写出、读入的数据格式、字符顺序等问题。因此序列化也就是比较重视的事情了。拿密码来打比方。序列化就像加密,反序列化就像解密。只加密不解密那肯定是不行的。hdfs作为分布式存储系统必然涉及到序列化问题。 h...原创 2014-02-10 15:20:24 · 369 阅读 · 0 评论 -
HBase入门篇(转)
1-HBase的安装HBase是什么?HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据 存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作,如右侧的图所示:HBase在产品中还包含了Jetty,在HBase启动时采用嵌入式的方...原创 2014-02-07 09:37:47 · 171 阅读 · 0 评论 -
用MRUnit做单元测试
http://www.taobaotest.com/blogs/1681原创 2013-12-16 10:01:35 · 101 阅读 · 0 评论 -
简单介绍一下HBase、Cassandra、Voldemort、Redis、VoltDB、MySQL(转)
hbase 1.简介: HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群 2.HBase和RDBMS的关系 RDBMS(Relation DabaBase Management System-关系数据库):由关系模型构成的数据库就是关系数据库。关系数 据库由包含数据...原创 2013-12-16 09:50:52 · 213 阅读 · 0 评论 -
GitHub项目Storm-HBase介绍
Storm-HBase,该项目是Twitter Storm和Apache HBase的结合,它使用HBase cluster作为Storm的Spout数据源,目前只是初步实现,后续会进一步完善。HBaseSpout根据时间戳范围[start_timestamp, stop_timestamp],持续不间断地从HBase cluster读取流数据: 如果start_timestamp = ...原创 2013-12-06 10:17:36 · 95 阅读 · 0 评论 -
HBase/Hadoop学习笔记 (转)
HBase/Hadoop学习笔记 学习目标: 至少掌握五点: 1. 深入理解HTable,掌握如何结合业务涉及高性能的HTable。 2. 掌握与HBase的交互,通过HBase Shell命令及Java API进行数据的增删改查。 3. 掌握如何用MapReduce分析HBase里的数据 ...原创 2013-12-03 09:41:40 · 226 阅读 · 0 评论 -
Nutch相关框架安装使用最佳指南(转)
Chinese installing and using instruction - The best guidance in installing and using Nutch in China 国内首套免费的《Nutch相关框架视频教程》 土豆在线观看地址:http://www.tudou.com/home/item_u106249539s0p1.html 超清原版下...原创 2013-12-02 09:34:26 · 207 阅读 · 0 评论 -
Hbase和solr在海量数据查询中的应用
对于历史数据的查询,在数据规模不大的情况下,可以用传统的关系型数据库,如oracle,mysql等,可以利用他们提供的索引功能,实现高效的查询。但是当数据上升到一定规模后,用传统的关系型数据库就不太合适了,当然可以把数据存到分布式数据库HBase中。HBase目前只支持对rowkey的一级索引,对于二级索引还不支持,当然可以把所有要索引的字段都拼接到rowkey中,根据hbase的fi...原创 2013-12-01 10:41:51 · 138 阅读 · 0 评论 -
Java操作Hbase进行建表、删表以及对数据进行增删改查,条件查询
1、搭建环境 新建JAVA项目,添加的包有: 有关Hadoop的hadoop-core-0.20.204.0.jar 有关Hbase的hbase-0.90.4.jar、hbase-0.90.4-tests.jar以及Hbase资源包中lib目录下的所有jar包 001import java.io.IOExce...原创 2013-11-29 09:19:43 · 99 阅读 · 0 评论 -
Hadoop分布式文件系统:架构和设计要点(转)
一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。3、HDFS以支持大数据集合为目标,一个存储在上面的典型文件大小一般都在...原创 2013-11-08 09:29:37 · 95 阅读 · 0 评论 -
java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path i
java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: hdfs://localhost:49000.tmp at org.apache.hadoop.fs.Path.initialize(Path.java:148) at org....原创 2013-11-06 09:28:29 · 745 阅读 · 0 评论 -
运行MapReduce作业做集成测试
准备工作 以windows环境为例: 安装jdk,设置环境变量JAVA_HOME为jdk安装目录 安装Cygwin,安装时注意选择安装软件包openssh - Net 类,安装完成将cygwin/bin加入环境变量path。 确认ssh。打开cygwin命令行,分别执行以下命令 安装sshd:$ ssh-host-config 启动sshd服务:$ net s...原创 2013-12-17 09:46:31 · 123 阅读 · 0 评论 -
HBase业务实践(转)
适合读者2012年因为业务需求,我们的底层数据库从Mysql迁移到HBase上面,正好也亲身经历了HBase-Client从0.92到0.94变化。我们总结了一些业务上面使用HBase的办法,希望本文能够对业务上面刚刚使用HBase的人一些帮助,降低入门门槛。准备工作HBase Toturial,需要对HBase有一定的了解Mysql 基础,需要对Mysql有一定的了解J...原创 2014-05-12 09:36:57 · 134 阅读 · 0 评论 -
java实现Hbase中的查询(Filter方式)
1、需要的jar包:commons-codec-1.4.jarcommons-logging-1.0.4.jarhadoop-0.20.2-core.jarhbase-0.20.6.jarlog4j-1.2.15.jarzookeeper-3.2.2.jar 2、已有表结构:1、表名:scores2、列族:course:artcourse:mat...原创 2014-02-07 09:37:20 · 146 阅读 · 0 评论 -
Hbase quick start
1.2. Quick StartThis guide describes setup of a standalone HBase instance. It will run against the local filesystem. In later sections we will take you through how to run HBase on HDFS, a distribu...原创 2014-01-26 11:12:10 · 112 阅读 · 0 评论 -
Hive如何加载和导入HBase的数据
当我们用HBase 存储实时数据的时候, 如果要做一些数据分析方面的操作, 就比较困难了, 要写MapReduce Job。 Hive 主要是用来做数据分析的数据仓库,支持标准SQL 查询, 做数据分析很是方便,于是便很自然地想到用Hive来载入HBase的数据做分析, 但是很奇怪地是, 上网查了一下, 只看到以下两种情况:1. 如何用Hive 往HBase里面插入大量的数据。2...原创 2014-06-03 09:52:54 · 357 阅读 · 0 评论 -
Cassandra HBase和MongoDB性能比较
这是一篇基于亚马逊云平台上对三个主流的NoSQL数据库性能比较,在读写两个操作不同的组合情况下性能表现不同。横坐标是吞吐量,纵坐标是延迟,这是一对矛盾,吞吐量越大,延迟越低,代表越好。1. 纯粹插入,Cassandra领先,见下图:2.WorkloadA: 读修改操作各占一半情况下的修改性能:MongoDB明显延迟增加,落败:3.WorkloadB:读修改操作各占一半情况下的读性能:Cassa...原创 2014-06-02 13:03:03 · 266 阅读 · 0 评论 -
Mongodb VS Hbase
1.Mongodb bson文档型数据库,整个数据都存在磁盘中,hbase是列式数据库,集群部署时每个familycolumn保存在单独的hdfs文件中。2.Mongodb 主键是“_id”,主键上面可以不建索引,记录插入的顺序和存放的顺序一样,hbase的主键就是row key,可以是任意字符串(最大长度是 64KB,实际应用中长度一般为 10-100bytes),在hbase内部,row...原创 2014-05-30 09:16:14 · 117 阅读 · 0 评论 -
HBase 系统架构
HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的,分布式的,多版本的,面向列的存储模型。它存储的是松散型数据。HBase特性:1 高可靠性2 高效性3 面向列4 可伸缩5 可在廉价PC Server搭建大规模结构化存储集群HBase是Google BigTable的开...原创 2014-05-30 08:59:04 · 105 阅读 · 0 评论 -
【C#】通过Thrift操作HBase系列
题外话:C# 调用 Java 的几种方法1.将Java端的接口通过WebService方式发布,C#可以方便的调用2.先使用C++ 通过 JNI 调用 Java,C# 调用C++的接口3.使用开源的库直接使用C#调用Java ,详细信息请点击4.使用IKVM实现C#调用Java,参考:http://www.ikvm.net/ 之所以说这些,是因为自己这边客户端要调用H...原创 2014-05-29 13:10:55 · 303 阅读 · 0 评论