
hadoop
蒋一个故事
Everybody wants something.
展开
-
Hadoop之应用程序运行过程(面试)
Hadoop2.0,YARN也采用了Master/Slave结构。Master-ResourceManager:负责整个集群资源的管理与调度,主要这么几个功能包括:处理来自客户端的请求启动管理ApplicationMaster,接收来自ApplicationMaster的资源申请管理和接受来自NodeManager的资源汇报信息 Slave-NodeManager:负责管理Hadoop集群中单个计算原创 2015-11-03 14:18:16 · 921 阅读 · 0 评论 -
Hadoop之文件副本是如何存储的
文件副本存储策略(replication policies):将第1个副本存储在本地机架节点上;第2个存储在与第1个相同机架的另一个节点上;第3个放在不同机架的任意一个节点上。(若副本多于3个则剩下的副本随机存储在集群其他机架中。其他:Block块设置的比较大是为了最小化寻址开销。但也不会设置太大,如果设置太大会导致任务数过少,作业运行速度就会比较慢。 2015年10月21日晚原创 2015-11-03 14:16:18 · 1606 阅读 · 0 评论 -
Hadoop之客户端读取HDFS中的数据
客户端通过调用FileSystem对象的open()方法来打开希望读取的文件DistributedFileSystem使用RPC调用namenode,确定文件起始块位置。对于文件的每个块,namenode返回该块副本的datanode的地址,这些datanode根据与客户端的距离排序,如果客户端本身就是一个datanode,并且保存有副本时,则从本地datanode中读取数据。客户端使用Distri原创 2015-11-03 14:21:02 · 2847 阅读 · 0 评论 -
hadoop的Job相关功能
Job提交和监听 检查input 和output 的规范 计算InputSplit 的值 设置DistributedCache 必要的accounting information ,如果需要。 拷贝作业的jar和配置文件到MR系统文件夹。 将Job提交到ResourceManager 并可选的监听状态。 Job的输入MR框架依赖于Job的InputFomat来: 验证作业输入规范 将输入文件切分成逻原创 2016-03-04 15:10:35 · 735 阅读 · 1 评论 -
Hadoop DistributedCache详解
DistributedCache是Hadoop提供的文件缓存工具,它能够自动将指定的文件分发到各个节点上,缓存到本地,供用户程序读取使用。它具有以下几个特点:缓存的文件是只读的,修改这些文件内容没有意义;用户可以调整文件可见范围(比如只能用户自己使用,所有用户都可以使用等),进而防止重复拷贝现象;按需拷贝,文件是通过HDFS作为共享数据中心分发到各节点的,且只发给任务被调度到的节点。本文将介绍Dis转载 2016-03-04 17:35:57 · 819 阅读 · 0 评论