
Hadoop
takeuheart
这个作者很懒,什么都没留下…
展开
-
Yarn
Yarn 架构 优点 (1) 支持多种计算框架 YARN是通用的资源管理和任务调度平台,只要实现了YARN的接口的计算框架都可以运行在YARN上 (2) 资源利用率高 多种计算框架可以共用一套集群资源,让资源充分利用起来,提高了利用率。 (3) 运维成本低 避免一个框架一个集群的模式,YARN降低了集群的运维成本。 (4) 数据可共享 共享集群模式可以让多种框架共享数据和硬件资源,减少数据移动...原创 2019-11-22 19:59:10 · 368 阅读 · 0 评论 -
MapReduce原理
MapReduce原理 MapTask运行机制及并行度 inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputCollector收集器,对其结果key进行分区(默认使用hash分区),然后写入buffer,每个map task都有一个内存缓冲区,存储着map的输出结果,当缓冲区快满...原创 2019-11-18 20:13:07 · 284 阅读 · 0 评论 -
HDFS
HDFS HDFS优缺点 * 优点 1)高容错性 数据自动保存多个副本。它通过增加副本的形式,提高容错性。 2)适合处理大数据 数据规模:能够处理数据规模达到GB、TB、甚至PB级别的数据; 某一个副本丢失以后,它可以自动恢复。 文件规模:能够处理百万规模以上的文件数量,数量相当之大。 3)可构建在廉价机器上,通过多副本机制,提高可靠性。 *缺点 1)不适合低延时数据访问,比如毫...原创 2019-11-13 20:16:04 · 201 阅读 · 0 评论