
hadoop
文章平均质量分 96
不名一文
飞翔的菜鸟,keep moving
展开
-
mapreduce简介
1.Mapreduce概述 1.1定义 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上 1.2优缺点 优点 MapReduce易于编程 良好扩展性 高容错性 适合PB级以上海量数据的离线处理 缺点 不擅长实时/流式计算 不擅长DAG计算 1.3核心思想 核心编程思想如下图 ...原创 2018-05-31 00:04:42 · 895 阅读 · 0 评论 -
Yarn简介
1.基本架构 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序相当于操作系统上的应用程序 YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成,如下图 ResouceManager: 处理客户端请求 监控NodeManger 启动或监控ApplictionMaster 资源的分配和调度 NodeManager: 管理单个节点上的资源原创 2020-11-17 09:32:22 · 1807 阅读 · 0 评论 -
hdfs简介
1.HDFS概述 1.1HDFS产生背景及定义 1.1.1产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件系统中的一种 1.1.2定义 HDFS(Hadoop Distributed File System) 是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,有很多服务器联合起来实现其功能,集群中服务器有各自的角色原创 2020-12-20 18:57:38 · 594 阅读 · 0 评论