
hadoop
sun_168
努力做一个好码农
展开
-
在map函数中获取当前记录来自的文件名称
查找资料,发现可以通过InputSplit inputSplit=(InputSplit)context.getInputSplit();String filename=((FileSplit)inputSplit).getPath().getName();来获取,结果很不幸,我失败了,问题出在哪里呢,还是新旧API捣的鬼。其实以前的“Hadoop中mapred包和mapreduc原创 2012-06-01 09:27:32 · 1864 阅读 · 0 评论 -
Hadoop工作流程
这里我就按我自己对Hadoop工作流程的理解大概写一下,如果哪位大牛看到,有错误或漏洞请指正。这是一篇综述类的博客,我会就某些局部细节写后续博客。 Hadoop集群中分主节点master节点和slave节点,master节点监控slave节点。master和slave之间通过ssh协议进行通信。 master节点上部署有JobTracker和NameNode,当然也原创 2012-07-13 08:37:17 · 5536 阅读 · 0 评论 -
为什么Hadoop集群中机器台数多反而执行速度慢?
这里我对这个现象给出解释。由于水平有限,发现错误,请及时留言,或站内和我联系。这里假设集群中有slave1,slave2,slave3三个节点,其中slave3工作效率低。一共有6个任务,需要去做,slave1和slave2执行一个任务是1分钟,slave3执行一个任务是2分钟。有一个前提是每个slave完成自身的任务才回去推测执行。如果让slave1和slave2去做,则需要3分原创 2012-12-16 23:24:46 · 4668 阅读 · 1 评论 -
Hadoop集群中添加硬盘
Hadoop工作节点扩展硬盘空间接到老板任务,Hadoop集群中硬盘空间不够用,要求加一台机器到Hadoop集群,并且每台机器在原有基础上加一块2T硬盘,老板给力啊,哈哈。这些我把完成这项任务的步骤和我遇到的问题和解决方法总结一下,分享给大家。1. 首先,介绍一下用到的基本命令和配置,如果本文的网友时间比较紧,可以直接跳过部分内容,直接看“2. 如何加载新硬盘”部分。(1原创 2012-11-22 20:22:40 · 5610 阅读 · 0 评论 -
Hadoop常用命令
不用Hadoop才几天,今天再用就有点忘了,这里将常用命令总结一下,以备以后使用查询。1. 开启关闭Hadoop集群命令 配置好HADOOP_HOME路径 bin/start-all.sh bin/stop-all.sh2. 一般的文件系统操作,命令如下 hadoop fs -ls dir原创 2012-10-29 16:04:21 · 682 阅读 · 0 评论 -
再论Java的随机数
今天我用Hadoop实现随机生成一个很大的矩阵,可是好多行是一样的,郁闷,查看了JDK的API后才知道了其中的原委,现在和大家分享一下。Java随机数产生可以通过Java.util.Random来实现。Random类有两个方法构造方法:1. Random(long)该构造函数中的参数充当伪随机的种子,我们可以自由设置;2. Random()该构造方法没有参数,其中的种子是通原创 2012-08-11 20:42:31 · 940 阅读 · 1 评论 -
Hadoop中mapred包和mapreduce包的区别
今天写了段代码突然发现,很多类在mapred和mapreduce中分别都有定义,下面是小菜写的一段代码:public class MyJob extends Configured implements Tool{ public static class MapClass extends MapReduceBase implements Mapper {//原创 2012-05-17 18:38:48 · 8653 阅读 · 3 评论 -
不容忽视的setJarByClass方法——找不到Map类
如果集群上运行程序找不到Map和Reduce类一般都是没有设置包含类的Jar包API解析如下:setJarByClasspublic void setJarByClass(Class cls)Set the Jar by finding where a given class came from. Parameters:cls - the example class原创 2012-06-04 11:55:17 · 9347 阅读 · 0 评论 -
第一个Hadoop程序
最近对海量数据处理的兴趣,正在学习Hadoop,呵呵,这是笔者的第一个hadoop程序,通过这个程序,终于把hadoop程序的编写执行流程搞清楚了!首先上代码import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputS原创 2012-05-16 00:11:44 · 3225 阅读 · 0 评论 -
^A在linux的处理
vim中的^A原创 2016-08-11 21:12:22 · 15267 阅读 · 1 评论