
hadoop0.19.1
文章平均质量分 89
bxyz1203
这个作者很懒,什么都没留下…
展开
-
hadoop mr的数据流程交互简单描述
一、概述文章可能会重新编辑,如果想浏览最新内容请访问原创博客:http://blog.youkuaiyun.com/bxyz1203/article/details/8074248。由于作者个人知识面有限,如果描述有错误或者遗留之处敬请谅解,再欢迎指出,我们共同进步。二、计算流程MR计算框架发展到1.0.3左右,计算框架没有发展大的变化。在《hadoop The Definitive Guide原创 2012-10-15 19:06:11 · 8492 阅读 · 0 评论 -
hadoop mr的一些文件归属(包括临时文件的存储情况)
一、概述一个计算的流程如下图所示,对于一个简单的wordcount的计算中,总共要经历哪些文件呢?本文将详细探讨这个话题。文章可能会重新编辑,如果想浏览最新内容请访问原创博客:http://blog.youkuaiyun.com/bxyz1203/article/details/8057810。由于作者个人知识面有限,如果描述有错误或者遗留之处敬请谅解,再欢迎指出,我们共同进步。本文分析的是0.19.原创 2012-10-10 20:01:48 · 11100 阅读 · 1 评论 -
hadoop日志简单分析
一、概述本文基于0.19.1分析得出,有一些是alibaba hadoop优化的部分。本文不涉及jobtracker及nodename元数据的部分,本文主要讲述一个任务在计算阶段大致产生的一些日志,及日志的一些问题。二、日志简单介绍当所有的守护进程都起来后(为了简单起见,我们用的是伪分布模式,是由一个机器搭建的),大致的目录结构如下:[dragon.caol@hd19-vm1 lo原创 2012-09-24 17:03:14 · 5249 阅读 · 0 评论 -
hadoop mr类图大纲
分析一框架,莫过于类图,近日,亲自画此类图。高清图:http://img1.ph.126.net/pngTQtip2YZ5JR_yqdNSmQ==/6597918589632662351.jpg主要分为:client、JobTracker、TaskTracker、TaskRunner、Clild。协调有的是通过RPC调用,有的是通过Shell命令调用。阻塞通过要原创 2012-09-02 21:01:55 · 3996 阅读 · 0 评论 -
hadoop 0.19.1 rpc代码分析
一、概述hadoop中mr类图大致如下所示,其中只是简单列出了一些主要的功能模块。JobConf、JobTracker、TaskTracker、RPC Server等组件。在图中,我用红色框框框出了一些基本的类。此图基本反映了MR的类图结构。一个简单的job在hadoop上面跑起来,基本可以分为10个步骤。如下图所示:hadoop都是用rpc框架来机器的原创 2012-08-30 13:30:09 · 4219 阅读 · 9 评论 -
谈谈hadoop日志限制的问题
<!--table {border-spacing:1px; border:1px solid #A2C0DA}td, th {padding:2px 5px; border-collapse:collapse; text-align:left; font-weight:normal}thead tr th {background:#B0D1FC; bo原创 2012-10-24 17:12:00 · 6486 阅读 · 0 评论 -
hadoop相关的一些技巧
分布式系统比普通程序开发有一些特别的难度,最主要的就是环境问题。本博客将记录怎么去解决这些问题,最主要的是一些脚本。后期会连续更新,目前最主要的技巧有:ssh打通:hadoop在部署的时候,各个机器之间肯定要打通,我们不可能手工去敲每一个命令。所以最好有一个脚本。https://github.com/lwwcl1314/apollo/blob/master/distrubutescri原创 2012-10-22 22:04:26 · 4446 阅读 · 0 评论