
hadoop
文章平均质量分 77
genghaihua
这个作者很懒,什么都没留下…
展开
-
Eclipse下配置使用Hadoop插件
前提,请先配置好Hadoop集群,并启动Hadoop守护进程。集群搭建参见:http://blog.youkuaiyun.com/matraxa/article/details/7179366我使用的软件版本如下:Ubuntu: Ubuntu10.04JDK: jdk1.6.0_25Eclipse: Eclipse3.71Hadoop: Hadoop-0.20.203.0转载 2014-04-19 17:53:04 · 658 阅读 · 0 评论 -
hadoop ClientProtocol YARNRunner
Protocol that a JobClient and the central JobTracker use to communicate. TheJobClient can use these methods to submit a Job for execution, and learn aboutthe current system status.YARNRunner 实现...原创 2019-04-28 21:09:16 · 314 阅读 · 0 评论 -
linux文件权限700
-rw------- (600) 只有拥有者有读写权限。-rw-r--r-- (644) 只有拥有者有读写权限;而属组用户和其他用户只有读权限。-rwx------ (700) 只有拥有者有读、写、执行权限。-rwxr-xr-x (755) 拥有者有读、写、执行权限;而属组用户和其他用户只有读、执行权限。-rwx--x--x (711) 拥有者有读、...原创 2019-04-14 14:05:18 · 8915 阅读 · 0 评论 -
解决hadoop namenode 无法启动
http://blog.youkuaiyun.com/hwwzyh/article/details/39312235hadoop集群正常运行,不小心把namenode节点服务器shutdown了,重启服务器后,启动hadoop发现namenode节点无法启动,50070端口无法访问,50030端口正常。这种情况下只好去看namenode日志了,下载日志文件到本地查看在hadoop的转载 2015-10-10 14:01:12 · 1517 阅读 · 0 评论 -
hadoop序列化机制与java序列化机制对比
1、采用的方法: java序列化机制采用的ObjectOutputStream 对象上调用writeObject() 方法; Hadoop 序列化机制调用对象的write() 方法,带一个DataOutput 类型的参数;2、反序列化过程: 两者都是从流中读取数据,java的反序列化过程会不断的创建新的对象;Hadoop反序列化机制不断的复用对象(在Bl转载 2015-08-07 11:51:49 · 1064 阅读 · 0 评论 -
hadoop 2.0中ChainMapper与ChainReducer的使用
hadoop 2.0中ChainMapper与ChainReducer的使用原创 2015-07-16 14:00:09 · 1925 阅读 · 0 评论 -
Hadoop的Text类getBytes字节数据put到HBase后有多余字符串问题
本文转载于博客:http://blackwing.iteye.com/blog/1978501转载请注明原博主博客地址 转载请标明出处:http://blackwing.iteye.com/blog/1978501 org.apache.hadoop.io.Text里面的getBytes方法有个小坑。先看现场: String s = "91223224-2013112转载 2015-07-03 14:19:22 · 919 阅读 · 0 评论 -
浅析Mapper类之setup()和cleanup()方法
hadoop中的MapReduce框架里已经预定义了相关的接口,其中如Mapper类下的方法setup()和cleanup()。setup(),此方法被MapReduce框架仅且执行一次,在执行Map任务前,进行相关变量或者资源的集中初始化工作。若是将资源初始化工作放在方法map()中,导致Mapper任务在解析每一行输入时都会进行资源初始化工作,导致重复,程序运行效率不高!cle转载 2015-01-26 10:06:41 · 1576 阅读 · 0 评论 -
hadoop超时解决办法context.progress()的作用 假设在map()方法中,你有一个从数据库读取大量数据的操作,是用一个循环来完成的,并且,在读完全部的数据之前,你不会有任何的数据输出
进行矩阵计算的时候,由于持续时间长,往往会出现超时的错误,错误内容如下:Task attempt_201005281116_119912_r_000823_0 failed to report status for 606 seconds. Killing! 10/06/10 10:49:45 INFO mapred.JobClient: Task Id : attempt_20100转载 2015-01-26 10:15:35 · 1728 阅读 · 0 评论 -
hadoop如何执行自己编写的MapReduce程序
比如我们现在写好了一个mapred程序如下:package com.besttone.mapred;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;impo转载 2015-01-26 09:58:52 · 2785 阅读 · 1 评论 -
Hadoop 的HA高可集群用性
一、 Hadoop 的高可用性1. 概论本指南提供了一个HDFS 的高可用性(HA )功能的概述,以及如何配置和管理HDFS 高可用性(HA) 集群。本文档假定读者具有对HDFS 集群的组件和节点类型具有一定理解。有关详情,请参阅Apache 的HDFS 的架构指南。http://hadoop.apache.org/common/docs/current/hdfs_design.htm转载 2015-01-17 00:21:09 · 862 阅读 · 0 评论 -
context.progress()的作用
假设在map()方法中,你有一个从数据库读取大量数据的操作,是用一个循环来完成的,并且,在读完全部的数据之前,你不会有任何的数据输出(纯读),那么,读完全部数据所需的时间可能很长,一直没有输出的话,这个task就会因为超时被杀掉,为了避免这个问题,可在以读取数据的循环中使用context.progress()方法来报告进度,那么该task就会被认为还活着,从而解决超时问题。转载 2015-02-02 14:48:09 · 1663 阅读 · 0 评论 -
hadoop以jar形式运行代码 并运行时动态指定参数
前言: 在执行 wordcount代码中,文件参数在代码中写死,如果希望动态指定 文件参数的话,可以将工程打成jar方式,在hadoop环境下执行,步骤如下: 1 wordcount类适量修改成如下:package mapreduce;import java.io.IOException;import java.net.URI;import java.net.URI转载 2015-01-13 11:41:47 · 6510 阅读 · 0 评论 -
MapReduce的顺序式依赖关系组合式链式
一、顺序式执行完一个mapreduce,再执行一个mapreduceconfiguration conf1 = new configuration();conf1.set("mapred.job.tracker", "192.168.1.164:9001");string[] ars=new string[]{"t2g_input","t2g_output1"};string转载 2015-01-27 10:04:27 · 2113 阅读 · 0 评论 -
yarn nodemanager ContainerLaunchContext
ContainerLaunchContext包含了NodeManager启动一个container所需要的所有信息。包括ContainerId of the container,Resource allocated to the container,LocalResource necessary for running the container such as binaries, j...原创 2019-04-28 21:12:10 · 550 阅读 · 0 评论