
分布式
文章平均质量分 88
wgd852372
这个作者很懒,什么都没留下…
展开
-
Hadoop、Zookeeper、Hbase集群安装配置过程及常见问题(一)准备工作
引言最近由于科研的需要,从零开始搭建hadoop集群,包括单独的zookeeper以及hbase。对于linux、hadoop等相关的基础知识掌握比较少,所以这一系列的分享适用于各种小白,想体验hadoop集群的。同时,提出一些在搭建集群的过程中遇到的问题+解决方法。主要是针对真正的集群搭建过程,也就是Distributed。本篇主要介绍前期工作及常见问题,也算是对我最近几天的原创 2017-04-07 21:47:56 · 831 阅读 · 0 评论 -
HBase配置参数详细(不配置就是默认的参数)
hbase.rootdir这个目录是region server的共享目录,用来持久化Hbase。URL需要是'完全正确'的,还要包含文件系统的scheme。例如,要表示hdfs中的 '/hbase'目录,namenode运行在namenode.example.org的9090端口。则需要设置为hdfs://namenode.example.org:9000 /hbase。默认情况下Hba原创 2018-01-15 15:24:34 · 4520 阅读 · 0 评论 -
hadoop中的半连接
4.1.3 半连接(Semi-join)假设一个场景,需要连接两个很大的数据集,例如,用户日志和OLTP的用户数据。任何一个数据集都不是足够小到可以缓存在map作业的内存中。这样看来,似乎就不能使用reduce端的连接了。尽管不是必须,可以思考以下问题:如果在数据集的连接操作中,一个数据集中有的记录由于因为无法连接到另一个数据集的记录,将会被移除。这样还需要将整个数据集放到内存中吗?在这个例子...转载 2018-08-14 17:10:11 · 390 阅读 · 0 评论 -
Hbase多列范围查找(效率)
Hbase索引表的结构Hbase Rowkey 设计Hbase FilterHbase二级索引 Hbase索引表的结构 在HBase中,表格的Rowkey按照字典排序,Region按照RowKey设置split point进行shard,通过这种方式实现的全局、分布式索引,成为了其成功的最大的砝码 每一个索引建立一个表,然后依靠表的row key来实现范围检索...转载 2018-08-26 11:08:14 · 6294 阅读 · 0 评论