
Hadoop
小朋友2D
nobody
展开
-
MapReduce的工作机制(一)
本文从《Hadoop权威指南》总结而来。 MapReduce过程包含以下四个独立实体:客户端,用于提交MapReduce作业。jobtracker,协调作业的运行。jobtracker是Java应用程序,主类是JobTracker。tasktracker,运行作业划分后的任务。tasktracker是Java应用程序,主类是TaskTracker。分布式文件系统,一般为HDF...原创 2018-08-09 16:10:59 · 1217 阅读 · 0 评论 -
YARN架构
文章翻译自http://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/YARN.html文章目录ResourceManager,RMSchedulerApplicationsManager,AppsMngrNodeManager,NMHealth Checker ServiceApplicationMaster,AppMst...翻译 2019-06-03 17:18:58 · 224 阅读 · 0 评论 -
Hadoop关于使用lzo压缩的笔记
为啥使用了lzo仍然不能分片在hdfs.xml中,有这样的配置<property> <name>dfs.blocksize</name> <value>134217728</value> </property>这个配置设置了块大小为128M,在mapreduce的过程中,inputfo...原创 2019-05-06 15:26:05 · 329 阅读 · 2 评论 -
TaskTracker内部实现机制
TaskTracker概述TaskTracker功能执行命令从JobTracker端接收并执行各种命令,如运行任务,杀死任务,提交任务 为了防止任务之间干扰,TaskTracker会为每个任务启动一个单独的JVM,并由专门的线程监控其资源使用情况,一旦发现超量使用资源就直接将其杀掉汇报心跳将本节点的各个任务状态通过周期性心跳汇报给JobTracker 包括机器级别信息...原创 2018-09-10 17:26:00 · 665 阅读 · 0 评论 -
JobTracker内部实现机制
JobTracker是整个集群中唯一的全局管理者,设计的功能包括作业管理,状态监控,任务调度器等。作业控制模块负责作业的分解和状态监控状态监控(容错,任务调度)TaskTracker状态监控作业状态监控任务状态监控 ...原创 2018-08-27 18:19:04 · 1409 阅读 · 0 评论 -
MapReduce工作机制(二、Map端流程)
文章从《Hadoop权威指南》以及《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》中总结而来。四种Map Task:Job-setup Task:作业运行时启动的第一个任务Job-cleanup Task:作业运行时启动的最后一个任务Task-cleanup Task:任务失败或是被杀死后用于清理已写入临时目录中数据的任务Map Task: 处理数据,...原创 2018-08-14 16:22:42 · 550 阅读 · 0 评论 -
MapReduce可调整参数解释
文章取自《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》Map Task可调整参数 参数名称 参数含义 默认值 io.sort.mb Map Task缓冲区所占内存大小 100MB io.sort.record.percent 缓冲kvoffsets和kvindices共占io.sort.mb的内存比例 0....原创 2018-08-15 10:31:09 · 317 阅读 · 0 评论 -
Hadoop概览
文章从《Hadoop权威指南》总结而来可伸缩性Scaling Out(横向扩容)表示在系统中增加更多的商用节点Scaling up(纵向扩容)表示为单个节点增加资源,例如CPU,内存 所有的映射器可以独立地工作,而且映射器完成他们的任务时,归约器也能独立地开始工作。映射器或归约器之间不共享任何数据或临界区。如果有临界区,会减慢分布式计算的速度。 不适合使用Map...原创 2018-08-03 10:48:58 · 363 阅读 · 0 评论 -
MapReduce工作机制(三、Reduce端流程)
shuffle阶段Reduce Task从各个Map Task上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定阈值,则写在磁盘上,否则放在内存中。Merge阶段在远程拷贝数据的同时,Reduce Task启动了两个后台线程对内存和磁盘上的文件进行合并,防止内存使用过多或磁盘上文件过多Sort阶段将key相同的数据聚集在一起,由于各个Map Task已经实...原创 2018-09-11 15:29:20 · 357 阅读 · 0 评论 -
Hadoop Distributed File System(HDFS,hadoop分布式文件系统)
主从架构。以流式数据访问模式来存储超大文件,可以从MB乃至PB级大小,不能行于商用硬件集群上。是为高吞吐量应用优化的,这可能会以高时延为代价,低时延应选择HBase。HDFS所能够存储的文件总数受限于NameNode的内存总量。HDFS中的文件可能只有一个writer,且洗的数据总是将数据添加在文件的末尾。不支持具有多个writer的操作,也不支持在文件的任意位置进行修改(因为这么...原创 2018-08-02 14:38:00 · 1982 阅读 · 0 评论 -
Hadoop IO
文章从《Hadoop权威指南》中总结而来。HDFS检验数据完整性会对写入的所有数据计算校验和,并在读取数据时验证校验和。 写时校验由io.bytes.per.checksum=512指定字节的数据计算校验和。计算出来的CRC-32校验和(额外存储开销)为4字节,占原数据的总开销低于1% 校验和由客户端产生,发送到DataNode管线。DataNode在收到客户端数据...原创 2018-08-06 11:43:30 · 304 阅读 · 0 评论 -
YARN的CapacityScheduler和FairScheduler调度器
文章目录1. 调度器概述2. CapacityScheduler,基于(计算、存储等)能力的调度器2.1分层队列2.2 Capacity的保证2.3 安全性2.4 弹性2.5 多租户2.6 可操作性2.6.1 运行时配置2.6.2 停止应用程序2.7 基于资源的调度2.8 基于用户或组的队列映射2.9 优先级调度1. 调度器概述所述CapacityScheduler被设计成在操作员友好的方式运...翻译 2019-06-04 00:52:36 · 804 阅读 · 0 评论