
hadoop
文章平均质量分 55
bhh
这个作者很懒,什么都没留下…
展开
-
Hadoop学习一:SSH配置
更多内容,请访问bbhhhh.github.io最近在学习Hadoop,在配置伪分布式时需要配置SSH无密码登录。我是在CentOS7上安装Hadoop的,发现《Hadoop权威指南-第二版》以及Hadoop的官方文档关于SSH配置这一步都写的不够完整,导致无法实现SSH无密码登录,看了网上的相关帖子并经实践后,整理如下:1. SSH服务的安装就不细说了,一般都默认安装了。...原创 2014-08-05 16:18:16 · 581 阅读 · 0 评论 -
HBase 学习一: 客户端写缓冲区 autoFlush
更多内容,请访问bbhhhh.github.ioHBase的表操作,默认情况下客户端写缓冲区是关闭的,即table.isAutoFlush() = true, 这种情况下,对表的单行操作会实时发送到服务端完成。因此,对于海量数据插入,修改,RPC通信频繁,效率比较低。这种场景下,可以通过激活客户端缓冲区,批量提交操作请求,提高操作效率。下面是一个简单的关于autoFlush的...原创 2014-08-28 15:16:03 · 6034 阅读 · 0 评论 -
HBase Rowkey的散列与预分区设计
原贴地址更多内容,请访问bbhhhh.github.io转载 2014-08-28 16:15:37 · 1272 阅读 · 0 评论 -
如何基于NTLM代理服务器使Maven能够联网工作
更多内容,请访问bbhhhh.github.io最近在研究Hadoop 和Spark,需要自己编译一个spark包,用到maven工具。版本是:3.2.3,问题是公司的服务器在内网,而公司的HTTP代理是基于NTLM的,maven默认是不支持的,比如:你在settings.xml中有以下配置: <proxy> <id>my-proxy</i...原创 2014-12-18 15:17:05 · 1403 阅读 · 0 评论 -
Hadoop 坑爹的Speculative 机制
更多内容,请访问bbhhhh.github.io最近一直在搞Hadoop Hbase。我们有一个需求是从HDFS上读取输入文件,解析后输出到Hbase。由于输入文件非常大,TB级别,为了提高写库性能,我们尝试通过map程序在所有data node上并发读取并输出到Hbase。程序很快完成,并顺利完成入库任务。我们写了一个统计程序用于检查导入的记录是否与输入文件中的记录数一致。...原创 2014-12-18 16:27:00 · 6193 阅读 · 4 评论 -
hadoop-2.5.0-cdh5.2.1 + spark-1.2.0-bin-hadoop2.4 配置调优心得
更多内容,请访问bbhhhh.github.io环境:hadoop-2.5.0-cdh5.2.1spark-1.2.0-bin-hadoop2.4master,slave2 30G ram,32 vCoreslave4 60G ram,24 vCoreslave5 60G ram,24 vCore测试用例:根据关联条件对2个文件进行关联操作,并将关联后...原创 2015-01-06 16:37:37 · 2340 阅读 · 0 评论