
Haddoop
文章平均质量分 88
GettingReal
实事求是
展开
-
Hadoop 之 MapReduce 工作原理
文章目录Hadoop 之 MapReduce 工作原理剖析 MapReduce 作业运行五个核心的实体作业提交(Job Submission)作业初始化(Job Initialization)作业分配(Task Assignment)任务执行(Task Execution)Streaming过程和状态跟新作业完成(Job Completion)失败情况处理(Failures)任务失败(Task Failure)Application Master Failure节点管理器失败(Node Manager Fa原创 2021-09-02 09:32:42 · 1170 阅读 · 0 评论 -
Hadoop 之 MapReduce 编写
文章目录Hadoop 之 MapReduce 编写Configruation API 要点合并资源(Combining Resources)变量扩展(Variable Expansion)配置开发环境管理配置GenericOptionsParser,Tool,and ToolRunner路径以及依赖客户端路径作业路径打包依赖Hadoop 之 MapReduce 编写写 MapReduce 的套路,首先写 map 和 reduce 函数,在 IDE 中拿一小部分的数据集进行调试,编写单元测试(MRUnit原创 2021-09-01 08:56:08 · 702 阅读 · 0 评论 -
Hadoop 之文件写入 && 一致模型
文章目录Hadoop 之文件写入 && 一致模型Hadoop 文件写入异常情况副本安置策略(replica placement)一致模型(Coherency model)并行复制(distcp)Hadoop 之文件写入 && 一致模型Hadoop 文件写入具体步骤如下:1.客户端通过对 DistributedFileSystem 对象调用 create() 来新建文件2.DistributedFileSystem 对 namenode 创建一个 RPC 调用,在文原创 2021-08-31 09:03:02 · 322 阅读 · 0 评论 -
Hadoop 之文件读取
文章目录Hadoop 之文件读取Hadoop 文件读取网络拓扑Hadoop 之文件读取Hadoop 文件读取Hadoop 对于文件的读取流程,是理解 HDFS 的关键之一[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IyTi55Aw-1630285652604)(/Users/craft/Pictures/typora_images/e2ad600f-da37-45e3-9221-baacd87c588f-0285619.jpg)]具体的步骤如下:1.客户端原创 2021-08-30 09:08:27 · 1305 阅读 · 0 评论 -
Hadoop 之分布式文件系统
文章目录Hadoop 之分布式文件系统HDFS 的设计HDFS 核心概念数据块块设计的好处namenode 和 datanodenamenodedatanode块缓存Hadoop 之分布式文件系统HDFS 的设计超大文件:指的是几百 MB,几百 GB 设置几百 TB 大小的文件流式数据访问: 一次写入、多次读取是最高效的访问模式。每次分析都将涉及该数据集的大部分甚至全部,因此读取整个数据集的时间延迟比读取第一条记录的时间延迟更为重要商用硬件:不必运行在昂贵且高可靠的硬件上。所以 HDFS 遇到节点原创 2021-08-30 09:05:16 · 265 阅读 · 0 评论 -
Hadoop 之 MapReduce 作业初体验
文章目录Hadoop 之 MapReduce 作业初体验核心配置文件横向扩展(Scaling out)MapReduce 作业任务分类分片(input split)**分片切分的粒度**数据本地化优化(data locality optimization)combiner 函数Hadoop StreamingHadoop 之 MapReduce 作业初体验简单的 MapReduce 作业,需要一个 map 函数,一个 reduce 函数和一些用来运行作业的代码package com.grits.h原创 2021-08-29 06:50:39 · 286 阅读 · 0 评论