
hadoop
文章平均质量分 53
superye1983
这个作者很懒,什么都没留下…
展开
-
下代MapReduce预览
摘要:根据目前的状况来看,Hadoop作为企业级数据仓库体系结构核心技术,在未来的数年中将会保持持续增长的势头。下一代的MapReduce节点数将从目前的4000增加到6000-10000,其次并发的任务数从目前的40000增加到100000。原文地址转载 2012-08-17 10:54:57 · 639 阅读 · 0 评论 -
cloudera-manage 安装报错
Installation failed. Failed to receive heartbeat from agent. Ensure that the host's hostname is configured properly. Ensure that port 7182 is accessible on the Cloudera Manager Server (c原创 2014-12-16 15:02:54 · 1480 阅读 · 0 评论 -
在cdh5-yarn上运行map-reduce
在cdh5版本的yarn上运行一个map-reduce任务结果报错,信息如下2013-11-28 15:31:04,978 WARN org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch: Failed to launch container.java.io.FileNotFo原创 2013-11-29 10:50:24 · 4716 阅读 · 1 评论 -
Hadoop CDH5 手动安装伪分布式模式
CDH5已经使用了Hadoop2.2.0重新弄个虚拟机重头装一下由于Cloudera强烈建议使用rmp包或者apt-get的方式安装,一时半刻我都没有找到手动安装的说明,在安装的遇到多个问题,稍作记录首先环境要求 JDK1.7_u25+ Maven3.0.5 protoc2.5原创 2013-11-22 16:52:06 · 9856 阅读 · 1 评论 -
在pig中读取RCFILE文件
RCFILE是FACEBOOK公司使用的一种数据存储结构通过把相同列的数据存放在一起从而得到一个很高的压缩比RCFILE集成在HIVE中,在HIVE并没有提供PIG读取数据的结构但是在PIG的第三方库中有人贡献了读取RCFILE的PIGLOAD接口HiveColumnarLoader使用方法很简单:/*先注册jar包,需要用到的有这样3个*/register /tmp/pi原创 2012-12-10 14:34:15 · 1678 阅读 · 0 评论 -
Hadoop Archive小记
Hadoop中所有文件的信息都记录在Namenode的内存中因为Hadoop的设计是处理大数据,理想的数据文件应该是BLOCKSIZE的倍数为了避免小文件占用过多的系统内容,Hadoop提供了Archive来管理小文件不过har有可能使用的不是很多,在hive,pig,甚至hadoop中都有一些BUG,很多应用都有问题在这里做个记录1.文件夹模糊匹配 在使用hadoop原创 2012-12-03 16:21:33 · 1899 阅读 · 0 评论 -
在map中获取当前数据所属文件名
很多业务逻辑在处理数据时和文件名进行了绑定所以在做MAP的时候需要知道这条数据是从哪个文件而来这句语句可以获得文件名String fileName = ((FileSplit)context.getInputSplit()).getPath().getName();原创 2012-11-28 19:53:55 · 875 阅读 · 0 评论 -
通过获取HDFS目录/文件夹大小来控制reduce个数
一般map的个数系统会根据文件block数量来获取而reduce个数一般默认1个,在每个JOB用户根据自己的需要自己调整但是往往同一个JOB在不同目录下获取的数据大小相差很多,所以要根据每次获取数据的大小来确定reduce public static long getDirSize(Path dir, Configuration conf) throws IOException{原创 2012-11-28 14:48:26 · 4259 阅读 · 0 评论 -
Exception in thread "main" java.io.IOException: Permission denied
新集群配置点工具,在运行PIG的时候报错Exception in thread "main" java.io.IOException: Permission deniedat java.io.UnixFileSystem.createFileExclusively(Native Method)at java.io.File.checkAndCreate(File.java:1704)原创 2012-10-17 13:48:24 · 5139 阅读 · 0 评论 -
task tracker最大任务数设置
用oozie跑一个workflow这个workflow包含多个sqoop和pig脚本刚开始跑就发生了问题,具体情况为:sqoop启动的job,map显示100%,状态为runningreduce 0%然后无反映,一直处于等待状态原因是我在本机伪分布式模式下默认的mapreduce个数为2而在oozie的workflow中有多个任务要运行且有先后顺序先启动的任务占了slo原创 2012-09-18 13:46:07 · 1954 阅读 · 0 评论 -
HBase笔记 ERROR: org.apache.hadoop.hbase.MasterNotRunningException: null
早上启动hadoop,然后马上启动hbase进入hbase shell查询一张表,结果报错:ERROR: org.apache.hadoop.hbase.MasterNotRunningException: null报错写的很清楚MasterNotRunningException先说一下环境是本机伪分布式模式那就JPS看一下启动情况4065 DataNode4318原创 2012-09-04 13:59:55 · 3734 阅读 · 0 评论 -
使用rmp包安装impala1.4.1
首先安装impala依赖包添加repo使用yum安装sudo wget -O /etc/yum.repos.d/bigtop.repo http://www.apache.org/dist/bigtop/bigtop-0.7.0/repos/centos5/bigtop.reposudo yum install bigtop-utilshadoop使用的cdh版本为5.1.原创 2015-01-19 17:49:19 · 3960 阅读 · 1 评论