
Hadoop
文章平均质量分 68
《Hadoop权威指南》学习笔记
Java后台小张
就读于南昌大学软件学院
展开
-
第7章 MapReduce 的工作机制
第7章 MapReduce 的工作机制MapReduce 程序运行过程涉及的实体:客户端,提交MapReduce 作业。YARN 资源管理器,负责协调集群上计算机资源的分配。YARN 节点管理器,负责启动和监视集群中机器上的计算容器(container)。MapReduce 的application master,负责协调运行 MapReduce 作业的任务。它和MapReduce 任务在容器中运行,这些容器由资源管理器分配并由节点管理器进行管理。分布式文件系统(一般为 HDFS ),用来与其原创 2021-03-21 22:40:01 · 216 阅读 · 0 评论 -
第6章 MapReduce 应用开发
第6章 MapReduce 应用开发作业 IDHadoop2 中,MapReduce 作业ID 由YARN 资源管理器创建的YARN 应用ID 生成。一个应用的ID 包含两个部分:资源管理器开始时间和唯一标识此应用的由资源管理器维护的增量计数器。YARN 的Web界面默认为8088 端口,展示集群的概要信息,包括当前集群上的应用状态和数量,集群上的可用资源数量及节点管理器的相关信息。作业历史作业历史指已完成的MapReduce 作业的事件和配置信息。不管作业是否成功执行,作业历史都将保存下来,为运原创 2021-03-21 20:24:45 · 162 阅读 · 0 评论 -
第5章 Hadoop的I/O操作
第5章 Hadoop的I/O操作Hadoop 自带一套原子操作用于数据I/O操作。其中一些技术比Hadoop本身更常用,如数据完整性和压缩,但在处理多达好几个TB的数据集时,特别值得关注。其他一些则是Hadoop工具或API,它们所形成的构建模块可用于开发分布式系统,比如系列化框架和在盘(on-disk)数据结构。HDFS 的数据完整性HDFS 会对写入的数据计算校验和,并在读取数据时验证校验和。它针对每个由dfs.bytes-per-checksum 指定字节的数据计算校验和。默认情况下为512个字原创 2021-03-21 10:53:04 · 442 阅读 · 0 评论 -
第四章 关于 YARN
第四章 关于 YARNApache YARN(Yet Another Resource Negotiator)是Hadoop的集群管理系统。YARN被引入Hadoop2,最初是为了改善MapReduce的实现,但它具有足够的通用型,同样可以支持其他的分布式计算模式。YARN 应用运行机制YARN 通过两类长期运行的守护进程提供自己的核心服务:管理集群上资源使用的资源管理器(resource manager)运行在集群中所有节点上且能够启动和监控容器(container)的节点管理器(node m原创 2021-03-21 03:36:33 · 376 阅读 · 0 评论 -
第三章 Hadoop分布式文件系统
第三章 Hadoop分布式文件系统当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区(partition)并存储到若干台单独的计算机上。管理网络中跨多台计算机存储的文件系统称为分布式文件系统(distributed filesystem)。该系统架构于网络之上,势必会引入网络编程的复杂性,因此分布式文件系统比普通磁盘文件系统更为复杂。例如,使文件系统能够容忍节点故障且不丢失任何数据,就是一个极大的挑战。Hadoop自带一个称为HDFS的分布式文件系统,即 Hadoop Distri原创 2021-03-14 02:20:07 · 297 阅读 · 1 评论 -
第二章 关于MapReduce
第二章 关于MapReduce原创 2021-03-13 17:39:10 · 588 阅读 · 0 评论 -
第一章 初识Hadoop
第一章 初识Hadoop1 ZB (zettabytes) = 10^21 B = 1000 EB (exabytes) = 1 000 000 PB (petabytes) = 10亿 TB (terrabytes)有句话说得好:“大数据胜于好算法。” 意思是说对于某些应用,不管算法多牛,基于小数据的推荐效果往往都不如基于大量数据的一般算法的推荐效果。在硬盘存储容量多年来不断提升的同时,访问速度(硬盘数据读取速度)却没有与时俱进。1990年,一个普通硬盘可以存储1370 MB数据,传输速度为4.4原创 2021-03-13 17:38:25 · 232 阅读 · 0 评论