
hadoop
文章平均质量分 71
bluekeyv
致力于hadoop生态系统,专注hbase应用与研究
展开
-
FileInputFormat分析
一.程序简介 在mapreduce程序运行的开始阶段,hadoop需要将待处理的文件进行切分,按定义格式读取等操作,这些操作都在InputFormat中进行。 InputFormat是一个抽象类,他含有getSplits()和createRecordReader()抽象方法,在子类中必须被实现。这两个就是InputFormat的基本方法。getSplits()确定输入对象的切分原则,而createRecordReader()则可以按一定格式读取相应数据。 二.程序详细分析 FileInputForm原创 2010-12-17 10:34:00 · 2915 阅读 · 0 评论 -
Apache Hadoop 2.0-alpha发布
Apache Hadoop 2.0-alpha发布了,直接从0.23.x升为2.0版本,让我们再一次被Hadoop版本的混乱无序状态搞晕。本文将解析Hadoop -2.0-alpha中的新特性。相对于Hadoop-1.x版本(为了更全面的描述Hadop 2.0中的新特性,我们没有将之与0.23.x比较),添加了以下几个功能:1. HDFS HA (manual failover)转载 2012-10-30 15:36:01 · 2265 阅读 · 0 评论 -
hbase中region的规划与硬盘配置分析
Hbase在逻辑上的存储最小单位是Region,物理上来说事HFile。每个Region由多个HFile组成。那么,是否有一个推荐值,确定每台regionserver上运行多少个region,,每个region的size多大是最合适的呢? 看到《Hbase权威指南》中有一段话写道: It is noted in the Bigtablepaper that the ai原创 2011-12-23 15:01:05 · 5263 阅读 · 0 评论 -
hbase+hadoop运维的一点经验
目前系统上线,不断的有新问题,也不断的在总结一些经验,发在这里,做下mark,同时也为hbase使用者提供一些思路吧。1、单条rowkey下虽然能支持百万列,但是建议不要这么做,因为真正一个rowkey下挂了这么多数据时会在两个地方出现问题,一是查询时单行记录数据量过大,cl原创 2011-09-29 01:20:03 · 4849 阅读 · 0 评论 -
Ganglia安装详解(CentOS_5.5_Final版)
1. 安装rrdtool1.1. 安装依赖包Ø 拷贝CentOS软件包将CentOS安装光盘中的rpm包拷贝到/root/下,以备使用。Ø 安装zlib开发包rpm -ivh /root/CentOS/zlib-devel-1.2.3-3.x86_64.rpm原创 2011-04-29 15:13:00 · 5453 阅读 · 4 评论 -
hadoop集群批量快速安装
今天是我生日,在博客里放送出2份非常实用的文档。hadoop、hbase批量安装和ganglia安装配置详解。首先第一篇。 hadoop批量安装前先将namenode,Hmaster机器安装完毕。然后准备以下文件 1、hadoop-0.20.2-CDH3B4.tar.gz 2、hbase-0.90.1-CDH3B4.tar.gz 3、hosts 4、profile 5、hbaseconf(这个是hbase中的conf文件夹的拷贝) 6、hadoopconf(这个是hadoop中conf文件夹原创 2011-04-29 12:33:00 · 4092 阅读 · 1 评论 -
将本地文件目录移动(或cp)到hdfs下shell脚本
写了一下脚本,实现了以下功能: 1、保证同一时间只有一个该脚本的实例在运行,避免造成操作冲突 2、移动本地文件目录到hdfs下,目录路径相同 uploadtoHadoop.sh #!/bin/bash #pid=`ps -ef | grep -v grep | grep uploadtoHadoop | awk '{print $2}'` pid=`ps -ef | grep -v grep | grep uploa原创 2011-04-27 17:06:00 · 5504 阅读 · 1 评论 -
Hadoop0.21.0编译手册
目录 Hadoop0.21.0编译手册... 1 1. 安装环境及基本准备... 3 2. 安装Cygwin. 4 3. 编译common模块... 10 A. 导入工程... 10 B. 修改编译器设置... 10 C. 编译工程... 13 4. Hdfs和mapreduce模块编译... 15 5. 验证编译结果... 17 1. 安装环境及基本准备 操作系统:windows xp IDE: eclipse JDK:1.6以上版本,需配置好JAVA_HOME以及Path原创 2011-04-14 13:56:00 · 2336 阅读 · 0 评论 -
虚拟机下linux+java+hadoop+hive环境搭建
最近在接触hadoop的项目,把总结出的配置方法写出来纪念一下,也方便后来人快速玩转hadoop。 首先在虚拟机中安装linux,我是用的redhad,然后装jdk:http://yushan.javaeye.com/blog/261148,接下来是关键部分: 一、hadoop安装:下载release版本hadoop0.20.1,解压到/home/hadoop/ 。 1.命令行下运行 #mkdir input cp conf/*.xml input bin/hadoop原创 2009-10-19 15:35:00 · 3202 阅读 · 0 评论 -
hadoop 中MapReduce因为文件打开文件数目超过linux限制报错
haoop中mapreduce报错 java.io.IOException: All datanodes xxx.xxx.xxx.xxx:xxx are bad. Aborting… at org.apache.hadoop.dfs.DFSClient$DFSOutputStream.processDatanodeError(DFSClient.java:2158) at org.apache.hadoop.dfs.DFSClient$DFSOutputStream.access$1400(DFSCl转载 2011-01-07 15:51:00 · 2946 阅读 · 0 评论 -
hadoop性能调优的一些笔记
1、同构机器表现优于异构,即使在良好集群中添加差的机器也会整个拖慢集群的效率,可能有些方法进行调整,但是作为私有云最好不用异构 2、入库机器需要大于datanode节点的数量,实测的数据是单节点100MB/s ,2节点实测数据是136MB/s,由于总共就5台机器,所以无法测3节点入库速率。 3、job执行的时候,当跑1.3T的数据时总共耗时3小时40分钟。在5台节点机的情况下相当理想原创 2011-01-12 15:54:00 · 1593 阅读 · 3 评论 -
hadoop0.21.0中提供的测试工具
我们常常需要对HDFS或者mapreduce进行一些性能方面的测试,比如测试rpc的性能,测试DFS的IO读写性能,测试DFS的吞吐率性能,测试namenode的benchmark性能,mapreduce的sort性能等等。在hadoop的发行版中,其实已经提供了许多类似的工具,并已经打包成jar,供我们使用。以下是0.20.2中自带的一系列工具列表: DFSCIOTest Distributed i/o benchmark of libhdfs. DistributedFSCheck Distri原创 2011-01-17 15:52:00 · 2234 阅读 · 0 评论 -
cloudera建议的datanode配置
<br />Typical ‘base’ configuration for a slave Node<br /><br />– 4 x 1Tb hard drives, in a JBOD* configuration<br />– Do not use RAID! (See later)<br />– 2 x Quad-core CPUs, each 2.0GHz to 2.5GHz<br />– 16Gb RAM<br />– Gigabit Ethernet<br /> <br />翻译过来就是:<翻译 2011-05-09 22:29:00 · 2702 阅读 · 1 评论 -
Hadoop 实战之MapReduce链接作业之预处理
环境:Vmware 8.0 和Ubuntu11.04Hadoop 实战之MapReduce链接作业之预处理第一步:首先创建一个工程命名为HadoopTest.目录结构如下图:第二步: 在/home/tanglg1987目录下新建一个start.sh脚本文件,每次启动虚拟机都要删除/tmp目录下的全部文件,重新格式化namenode,代码如下:转载 2012-11-21 09:49:22 · 3061 阅读 · 0 评论