
hbase
文章平均质量分 61
公众号【禅与大数据】,欢迎订阅
禅与大数据
展开
-
spark常见操作系列(3)--spark读写hbase(2)
接着上一篇, 问题(2):scan有scan.setCaching(10000)scan.setCacheBlocks(true)等设定.setCaching ,个人感觉不够用.hbase 默认是在内存里面放一块数据用来读取,所以读取效率比较高,可是,其余大部分数据还是在硬盘中,这个内存数据块的设定和意义,待清晰研究.单节点hbase的写入效率,有人粗估计,在3万-5万,这个...原创 2018-06-21 21:35:19 · 2116 阅读 · 0 评论 -
大量csv数据的查询和计算的技术实现路径分析(2)-HDFS存储查询探讨2
上一篇讲了java split的使用弊端,虽是字符串处理中一个很小的操作,不过却避不开。接下来,主要探讨HDFS存储查询方面的问题和解决思路。 随着每天的业务运作,每天会生成很多csv文件,目前csv文件存储在hdfs文件系统里面。在使用csv文件数据时,遇到一个问题: 如何高效查询HDFS中的csv数据?基于HDFS文件系统的特性,笔者经由以前的探讨和一些资料,作了一些思考,如图: ...原创 2018-06-21 21:30:10 · 648 阅读 · 0 评论 -
spark常见操作系列(3)--spark读写hbase(1)
spark读写hbase,先写一下hbase的常用操作方式.hbase建表:create 'hbase_test_table', 'info', {NAME=>'info', SPLITALGO => 'HexStringSplit', REPLICATION_SCOPE =>0}, SPLITS => ['S0','S1','S2', 'S3', 'S4'...原创 2018-03-18 23:23:39 · 1563 阅读 · 0 评论 -
Elasticsearch+hbase 实现hbase中数据的快速查询(二)
接下来是Elasticsearch (版本5.x)中数据的CRUD 操作,为此,根据ES官网上的资料总结了一个工具类. 具体如下: (1)maven 添加依赖 (2)工具类代码:public class ESClientUtils { protected static Logger logger = Logger.getLogger(ESClientUtils.class); ...原创 2018-03-05 20:42:30 · 4087 阅读 · 1 评论 -
Elasticsearch+hbase 实现hbase中数据的快速查询(一)
之前虽做了solr-hbase构建二级索引以及快速查询,但是考虑到以后生成的数据可能会很多,一旦到了亿级以上,solr查询效率会渐渐慢下来.老板不满意,又听了几位专家的建议,采用Elasticsearch+hbase 来实现hbase中数据的快速查询.首先,安装Elasticsearch. CDH中没有集成Elasticsearch,所以只好独立安装. 1.下载elasticsearch-...原创 2018-03-03 15:33:56 · 7900 阅读 · 0 评论 -
spark常见操作系列(1)--spark scala 以及hadoop不同版本的api区别
spark常见操作系列做数据处理有一段时间了,现把工作中遇到的问题和处理思路做个整理.文章分为5块,依次是:1. spark hadoop,hbase 版本划分, 以及spark1.5.2,scala2.10.4 与spark2.0, scala2.11版本区别 2. spark读写hadoop 3. spark读写hbase 4. spark广播变量的应用 5. spar...原创 2018-03-10 16:57:16 · 2119 阅读 · 0 评论 -
solr-hbase二级索引及查询解决方案(二)
上一篇搭建了hbase的二级索引功能,只要hbase中有写数据,其就会自动的增量同步索引. 接下来是根据索引查询hbase中数据. 实测,查询索引数据,确实相当快,main方法测试,7200条数据,只需要1秒.查询hbase数据,同样数量数据,25个列,用了5秒,之前我们在3台集群上测试hbase查询,1万条,用了3秒,这里应该还有提升空间. 一般情况下,如果设置分页,那么这种速度是够用的,...原创 2018-02-28 22:27:12 · 550 阅读 · 0 评论 -
solr-hbase二级索引及查询解决方案(一)
最近要搞一个查询功能,是把hbase中的数据方便的查询出来.之前根据rowkey的查询方式,尽管有针对性设计过rowkey,有前缀查询,后缀查询,以及正则查询,但是实际上不够用. 参考了网络上的设计,建立二级索引是比较好的思路.于是就以solr存储hbase里面的列索引,实现了这个功能.需要的组件有: 1.hbase 2.solr 3.key-value store indexer ...原创 2018-02-28 21:41:50 · 4397 阅读 · 2 评论 -
Elasticsearch+hbase 实现hbase中数据的快速查询(三)
前2篇介绍了Elasticsearch的安装和工具类,虽然这样能用,但是还留有几个问题,对此有些困扰.多条件查询 工具类里面有个get精确查询和search搜索,但是那个只用来查询单一条件,如果查询界面上需要查询多个条件,那这个显然不够用.在网络上搜索了半天,发现没有比较好的java写的api参考,觉得有些奇怪,难道这种场景不常见吗? 官方文档中,有类似搜索api,比如MultiSear...原创 2018-03-07 23:15:16 · 8300 阅读 · 3 评论 -
hbase安装
安装hbase要注意版本兼容性.特别Hadoop,hive,hbase 三者如果都要集成的话,三者的版本要对的上.一般是版本越新越好,本文使用的是1.2.6版本.(1)配置hosts(2)下载解压安装包(3)修改 hbase-env.shcd /usr/hbase-1.2.6vi ./conf/hbase-env.sh#set java pathexport JAVA_HOME=/alidata/server/java#set hbase conf pathexport HBASE原创 2017-07-13 10:57:29 · 380 阅读 · 0 评论 -
spark复习
scala 构造方法初始化初探原创 2018-11-14 10:33:30 · 629 阅读 · 0 评论