Hadoop
初心江湖路
多学一分增一分。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapReduce的shuffle过程
shuffle是昂贵操作,因为shuffle操作不仅涉及到数据的拉取、溢写磁盘的IO操作还涉及排序合并等操作,如果能让shuffle的成本尽量降低也是一大优化的方向。本篇文章对应Hadoop2.6.5,只对应流程,具体细节,可以研究MapTask/ReduceTask/Shuffle等源码。 shuffle过程 一、Map端 1、起始点 - map任务已产生结果将写出 这一阶段可以称作缓冲区写出。...原创 2020-03-04 20:03:23 · 1355 阅读 · 0 评论 -
Hadoop Yarn架构及任务提交流程
一、Yarn架构图 图片来自官网 二、Yarn架构的主要组件 1、ResourceManager 这是一个全局性组件,负责整个集群资源管理。其两个主要的组件分别为Scheduler(调度器)和 ApplicationsManager(应用管理器)。 Scheduler 调度器Scheduler是支持可插拔的,用于根据不同的队列、应用等来划分集群资源,如 CapacityScheduler 按照容...原创 2020-03-02 14:54:07 · 967 阅读 · 0 评论 -
Hadoop MRv1和MRv2的区别
Hadoop1.0采用的是MRv1版本的MapReduce编程模型 对于MRv1 运行时环境:JobTracker和TaskTracker 编程模型:MapReduce 数据处理引擎:Map任务和Reduce任务 这一版本的瓶颈和缺陷: 1、JobTracker既负责资源管理又负责任务调度,如果集群繁忙,JobTracker本身就会成为可扩展性的瓶颈,大大制约计算能力。 2、在这一版本中,Task...原创 2020-03-01 12:16:07 · 1272 阅读 · 0 评论 -
Hadoop安全机制探究
一、可能的安全问题 1、如果Hadoop服务不对用户或者服务进行认证,那么可能发生什么安全问题? HDFS文件权限检查被规避 攻击者可以伪装服务,对集群进行攻击 2、因为只需要BlockId即可读取节点的数据,而DataNode不强制对任何访问请求做访问控制。那么,任何人都可以随意的访问和读写HDFS数据,这样就存在安全隐患。 二、Apache Hadoop安全团队使用的安全机制 基于Kerbe...原创 2019-12-27 15:25:22 · 864 阅读 · 1 评论
分享