
hadoop
_游侠
这个作者很懒,什么都没留下…
展开
-
HDFS的读取和写入原理
HDFS的读取和写入原理数据读取请求将由 HDFS、NameNode和DataNode来服务。让我们把读取器叫 “客户端”。1.HDFS读操作1、客户端启动通过调用文件系统对象的 open() 方法读取请求;它是DistributedFileSystem 类型的对象。2、此对象使用 RPC 连接到 namenode 并获取的元数据信息,如该文件的块的位置。 请注意,这些地址...原创 2018-10-15 22:50:02 · 3676 阅读 · 0 评论 -
hadoop yarn Job提交和Shuffle
hadoop yarn Job提交和Shuffle 1.Job提交我们开发mr程序然后通过命令来提交jar包:hadoop jar a.jar FullClassName inputpath outputpath然后进行MapReduce处理,整个运行过程分为3个阶段:1、Client端使用命令提交MapReduce job到Resourcemanager;2、Reso...原创 2018-10-15 22:55:09 · 630 阅读 · 0 评论 -
yarn中的capacity scheduler 分两个队列的配置
下面的配置的是分为两个队列default,services,其中资源的比例为:default队列80% ,services队列20%<property> <name>yarn.scheduler.capacity.root.queues</name> <value>default,services</value> <...原创 2018-10-09 23:05:29 · 1361 阅读 · 0 评论 -
Windows下本地调试 hadoop 的 mapreduce
1、准备工作本地模式下调试hadoop:下载winutils.exe和hadoop.dll hadoop.lib等windows的hadoop依赖文件放在D:\proc\hadoop\bin目录下并设置环境变量:HADOOP_HOME=D:\proc\hadoop添加PATH=%HADOOP_HOME%\bin关闭eclipse再重新启动来获取新的环境变量。2、创建程序Ma...原创 2018-10-22 21:27:39 · 927 阅读 · 0 评论 -
hadoop 二次排序
MapReduce做排序还需要理解一下MapReduce过程中,非常magic的过程Shuffle and Sort. Shuffle and Sort过程解析 如上图,Shuffle的过程包括了Map端和Reduce端。Map端Input Split分配给MapMap进行计算,输出[key, value]形式的outputMap的输出结果缓存在内存里内...原创 2018-10-23 22:25:54 · 518 阅读 · 0 评论