
hadoop
文章平均质量分 57
泽米
个人微信公众号:小刘三两事。欢迎订阅,一起分享生活。
展开
-
hadoop中partition的简单应用《转》
1、为何使用Partitioner,主要是想reduce的结果能够根据key再次分类输出到不同的文件夹中。2、结果能够直观,同时做到对数据结果的简单的统计分析。1、输入的数据文件内容如下(1条数据内容少,1条数据内容超长,3条数据内容正常):kaka 1 28hua 0 26chao 1tao 1转载 2017-08-15 10:12:42 · 273 阅读 · 0 评论 -
hadoop中conbine的简单使用《转》
combine函数把一个map函数产生的对(多个key, value)合并成一个新的. 将新的作为输入到reduce函数中。其格式与reduce函数相同。例如:将3个文件中的数值相加。file1: 1 2 3file2: 4 5 6file3: 7 8 9public class MyMapre06 { public static class Map exte转载 2017-08-15 10:19:34 · 1210 阅读 · 0 评论 -
hdfs下载数据源码分析之FileSystem.get(conf)浅析
以下代码都是根据在看hadoop视频的时候所用的代码,以下分析是结合视频讲解和我看视频的理解所写的文章。如有侵权请与我联系~一.通过跟踪这段源码来探究hdfs的下载数据的源码分析。其中包括程序中怎么通过读取conf来获得fs实例,然后fs实例怎么通过rpc机制来从namenode上拿到元数据信息,以及怎么通过rpc机制从datanode上拿到数据的。跟踪代码如下:跟踪进入FileSystem通过g...原创 2018-04-25 12:30:53 · 8086 阅读 · 2 评论 -
hdfs下载数据源码分析之open方法浅析
下面我们来看看open方法。我们之前简单分析过,这个open方法,打开这个在hdfs上的文件的时候,首先是要通过和namenode的通信来确定这个文件的块在哪些datanode上面,然后通过建立与datanode的通信来获得对应块文件流。Open方法返回的是文件系统的数据输入流,然后调用的是抽象的FSDataInputStream的方法,这个方法就是子类实现的方法了。下面是DistributedF...原创 2018-04-25 12:47:11 · 483 阅读 · 0 评论 -
Hadoop中yarn的概念和Yarn框架的大体工作流程
一.Yarn的组成Resource manager(RM),node manager(NM)。二.Yarn的目的Yarn是负责集群的资源调度。 三.我们提交jar包的时候应用的命令是:hadoop jar jar包 主类地址。然后我们的配置job运行时的一些参数的时候,有这么一句代码:job.waitforcompletion(),它在运行的时候会启动一个runjar的进程。以下是它的一些工作步骤...原创 2018-04-26 11:30:32 · 1006 阅读 · 0 评论 -
Hadoop MR程序的几种提交模式
一.问题来源为什么我们在windows下用编程集成工具或者linux下用编程集成工具来run我们编写的mr程序的时候是在本地jvm中运行,而我们在linux上用命令行:hadoop jar 提交我们的jar文件的时候就提交到集群去运行了呢?具体原因是:如果是RunJar中包含了和RM通信的rpc客户端就是把jar包提交到集群运行,如果RunJar中包含了和本地机器通讯的客户端的话,就是把jar包提...原创 2018-04-26 15:40:30 · 2436 阅读 · 0 评论 -
windows搭建hadoop源码阅读(debug)环境
之前自己有搭过一次,不过是在ubuntu上弄的,然后这次想在windows上弄一个源码阅读环境,说干就干,网上找了一些资料,然后结合自己的情况弄了一套,下面是步骤:一.下载hadoop的安装包,将其解压缩,然后下载winutils.exe和hadoop.dll将其放在hadoop的bin目录下。下载地址如下:链接:https://pan.baidu.com/s/1TnwIbXdVzGW...原创 2018-09-28 19:29:37 · 1428 阅读 · 0 评论 -
错误:Unable to initialize MapOutputCollector的解决办法
我是因为把我自己定义的bean当成key从map端传到reduce端了,但是我没有针对实现的WritableComparable接口,而是实现的Writable和Comparable接口(讲道理WritableComparable接口也是对这两个接口做了整合,为什么我分别实现就不行呢?),然后报了这个错误。这种错误有两种原因,一个是网上说的导包错误,比如Text是要导hadoop.io下面的,...原创 2018-10-28 23:22:44 · 2817 阅读 · 0 评论