
hadoop
文章平均质量分 72
needle2
这个作者很懒,什么都没留下…
展开
-
Hadoop使用常见问题以及解决方法
<br />Hadoop使用常见问题以及解决方法1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out<br />Answer:<br />程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。<br />修改办法:<br />修改2个文件。<br /> /etc/security/limits.conf<br />vi /et转载 2010-09-15 09:03:00 · 9168 阅读 · 0 评论 -
ubuntu11.04上cloudera cdh3u0的hadoop和hbase分布式安装
概述:业务需要较实时的处理大数据量,并提供大吞吐量的读写,hbase作为一个可选的列数据库,记录一下安装过程,待查。hbase的安装需要hadoop和zookeeper和hbase,生产环境下需要将zookeeper独立安装,并保证整个集群没有单点。 hbase软件选择cloudera的cdh3u0,apache的版本需要重新编译hadoop0.20.2-appender版转载 2012-02-18 09:20:24 · 1650 阅读 · 0 评论 -
hadoop1.0.0 安装记录
操作系统为centos5.4(已经建立几个节点间的信任关系)一,安装java1,下载java (以下为下载在/work目录下操作) wgethttp://download.oracle.com/otn-pub/java/jdk/7u2-b13/jdk-7u2-linux-i586.tar.gz2,解压下载文件并改名 tar-z转载 2012-02-15 09:47:21 · 1111 阅读 · 0 评论 -
hadoop中使用 Gzip 压缩格式支持笔记
hadoop中支持的压缩方式有多种,比如Gzip,bzip2,zlib等,其中Gzip是hadoop中内置就支持的一种压缩方式,这种压缩方式在平 时linux 的开发人员和管理 员中使用的比较广泛,压缩比也比较高,压缩速度也还不 错,所以很多人都喜欢第一趋向于使用这种压缩格式转载 2011-09-27 09:52:43 · 4305 阅读 · 0 评论 -
SecondaryNamenode应用摘记
一、环境Hadoop 0.19.2、JDK 1.6、Linux操作系统二、背景上周五的时候,由于操作系统的原因,导致JDK出现莫名的段错误。无论是重启机器还是JDK重装都无济于事。更可悲的是,出问题的机器就是Master。当时心里就凉了半截,因为secondarynamenode配置也是在这个机器上(默认的,没改过)。不过万幸的是这个集群是测试环境,所以问题不大。借这个缘由,我将s转载 2011-06-30 16:16:00 · 1071 阅读 · 0 评论 -
hbase 介绍
hbase 介绍一、简介history started by chad walters and jim2006.11 G release paper on BigTable2007.2 inital HBase prototype created as Hadoop contrib2007.10 First useable Hbase2008.1 Hadoop be转载 2011-07-01 11:03:00 · 730 阅读 · 0 评论 -
基于Hive的日志数据统计实战
<br />一、Hive简介<br />Hive 是一个基于 hadoop 的开源数据仓库工具,用于存储和处理海量结构化数据。 它把海量数据存储于 hadoop 文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并采用 HQL (类 SQL )语言对这些数据进行自动化管理和处理。我们可以把 Hive 中海量结构化数据看成一个个的表,而实际上这些数据是分布式存储在 HDFS 中的。 Hive 经过对语句进行解析和转换,最终生成一系列基于 hadoop 的 map/reduce 任务,通过转载 2011-05-03 16:32:00 · 2543 阅读 · 0 评论 -
HDFS小文件问题及解决方案
1、 概述小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 0000个小文件,每个文件占用一个block,则namenode大约需要2G空间。如果存储1亿个文件,则namenode需要20G空间(见参考资料[1][4][5])。这样namenode内存容量严重制约了集群的扩展。 其次,访问大量小文件速度远远小于访问几个大文件。转载 2011-05-21 13:33:00 · 10483 阅读 · 0 评论 -
Map/Reduce中Join查询实现
<br />一、背景<br />早在8月份的时候,我就做了一些MR的Join查询,但是发现回北京之后,2个月不用,居然有点生疏,所以今天早上又花时间好好看了一下,顺便写下这个文档,以供以后查阅。<br />二、环境<br />JDK 1.6、Linux操作系统、hadoop0.20.2<br />三、资料数据<br />在做这个Join查询的时候,必然涉及数据,我这里设计了2张表,分别较data.txt和info.txt,字段之间以/t划分。<br />data.txt内容如下:201001 1003 ab转载 2011-02-13 11:16:00 · 1994 阅读 · 0 评论 -
hadoop使用中的几个小细节
<br />最近在hadoop实际使用中有以下几个小细节分享: i=m5M]Ef <br />1 中文问题 KKrLF?rc <br /> 从url中解析出中文,但hadoop中打印出来仍是乱码?我们曾经以为hadoop是不支持中文的,后来经过查看源代码,发现hadoop仅仅是不支持以gbk格式输出中文而己。<br /> 这是TextOutputFormat.class中的代码,hadoop默认的输出都是继承自FileOutputFormat来的,FileOutputFormat的两转载 2011-02-13 17:02:00 · 3094 阅读 · 0 评论 -
MapReduce入门程序WordCount增强版
WordCount程序应该是学习MapReduce编程最经典的样例程序了,小小一段程序就基本概括了MapReduce编程模型的核心思想。现在考虑实现一个增强版的WordCount程序,要求:提供大小写忽略的选项。 在原始串中,过滤掉一些内容,例如要过滤hexie,那么单词hexieshehui就作为shehui统计。第一个很好实现,只需要在map函 数里判断一下要不要toLowerCase()即可。第二个也很好实现,将需要过滤的内容组合成一个长字符串,通过JobConf设置即可,但是如果需要 过滤的参数很多转载 2010-11-24 10:46:00 · 2551 阅读 · 0 评论 -
Eclipse下配置使用Hadoop插件
Eclipse下配置使用Hadoop插件一、环境配置<br />1、Eclipse 版本 3.3.X<br />2、Hadoop版本 0.20.2<br />二、配置流程<br />1、将/hadoop-0.20.2/hadoop-0.20.2/contrib/eclipse-plugin/下的hadoop-0.20.2-eclipse-plugin.jar拷贝到eclipse-SDK-3.3.2-win32/eclipse/plugins/下。<br />2、启动eclipse,点击Window->Sho转载 2010-11-12 15:15:00 · 1688 阅读 · 0 评论 -
将hive的元数据存到Oracle里
<br />感觉那个derby用不来,,故想将元数据放置到oracle里面【也可存到mysql】。至少知道怎么备份它。。。<br /><br />下面是研究了一晚上的东东,人太笨了。多谢 国宝 斑猪、<br />=========================================<br /><br /><br />How to store Hive's metadata in Oracle<br /><br />hive by default uses an embedded derby da转载 2010-11-05 17:04:00 · 10883 阅读 · 2 评论 -
Hive 随谈(四)– Hive QL
Hive 随谈(四)– Hive QL<br />Hive 的官方文档中对查询语言有了很详细的描述,请参考:http://wiki.apache.org/hadoop/Hive/LanguageManual ,本文的内容大部分翻译自该页面,期间加入了一些在使用过程中需要注意到的事项。Create TableCREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)转载 2010-11-02 09:32:00 · 1384 阅读 · 0 评论 -
hadoop的reducer输出多个文件
<br />hadoop的reducer输出多个文件<br />关键字: hadoop, mapreduce 有时候我们想到这样的功能: reducer能根据key(或value)值来输出多个文件,同一key(或value)处于同一个文件中。现在hadoop的0.17.x版本可以重写MultipleOutputFormat的generateFileNameForKeyValue就可以实现此功能。 <br /><br />比如: <br />Java代码 package org.apache.hadoop.m转载 2010-10-22 14:07:00 · 8189 阅读 · 0 评论 -
运行hadoop程序,如何在map中获取输入数据的全路径(fullpath)
<br />可以利用override map函数的第三个参数。map函数如下:<br />public void map(LongWritable key, Text value, OutputCollector<Text, Text> output, Reporter reporter)<br /><br />String path = ((FileSplit) reporter.getInputSplit()).getPath().toString(); <br /><br />即可取得全路径。<转载 2010-10-21 13:08:00 · 3763 阅读 · 1 评论 -
Hadoop-HDFS 对性能造成重大影响的神秘杀手-Shell.
<br />关于想了解HDFS的源码的朋友, 可以到蔡斌大哥那读读他的javaeye. <br /><br />很抱歉, 我用了神秘杀手一词, 因为它实在害我太惨, 又花了好大精力才把它给拎出来。 <br /><br />近来在测试Hadoop时, 使用NameNode身上的dfshealth.jsp 管理页面发现,DataNode在运行的过程中, Last Contact 参数时常会超过3。LC(Last Contact)的意思是表明DataNode有多少秒的时间未向NameNode发送心跳包了. 然而转载 2010-12-01 11:53:00 · 1261 阅读 · 0 评论 -
InputFormat学习
InputFormat学习<br />InputFormat,就是为了能够从一个jobconf中得到一个split集合(InputSplit[]),然后再为这个split集合配上一个合适的RecordReader(getRecordReader)来读取每个split中的数据。<br />InputSplit,继承自Writable接口,因此一个InputSplit实则包含了四个接口函数,读和写(readFields和write),getLength能够给出这个split中所记录的数据大小,getLocati转载 2010-09-29 08:52:00 · 775 阅读 · 0 评论 -
hive导出查询结果到本地文件
最近在使用hive时,需要将hive查询的数据导出到本地文件系统,HQL语法如下:INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1 查询结果导出到本地文件后,试图使用excel加载时遇上了麻烦:不知道hive导出文件时使用的分隔符, 使用文本编辑器打开也显示乱码。 最后在官方文档上找了半天才发现,hi原创 2012-06-20 14:51:56 · 4902 阅读 · 0 评论