
大数据
Small-lP-Pig
技术小白在线挖宝
展开
-
关于Hadoop1.0与2.0
关于Hadoop的局限性与不足: 1.抽象层次低:对于简单的功能,编写大量的代码。 2.表达能力有限,MR把复杂分布式编程工作高度抽象到两个函数上,即MAP与REDUCE 上,实际生产环境上中有些不能只用简单的两个函数完成。 3.要管理作业间复杂的依赖关系。实际应用通常需要大量的job协作完成,job之间往往存在复杂的依赖关系。 4.迭代效率低。对于需要迭代的任务。需要反复读写HDFS文件中的数据...转载 2019-03-27 19:49:14 · 1012 阅读 · 0 评论 -
关于HDFS中NameNode和Secondry的合并机制问题
一、FSImage和EditsLog是什么? 我们知道HDFS是一个分布式文件存储系统,文件分布式存储在多个DataNode节点上。一个文件存储在哪些DataNode节点的哪些位置的元数据信息(metadata)由NameNode节点来处理。随着存储文件的增多,NameNode上存储的信息也会越来越多。那么HDFS是如何及时更新这些metadata的呢? 在HDFS中主要是通过两个组件FSIm...原创 2019-03-28 14:16:59 · 609 阅读 · 0 评论