
hadoop
YY_pdd
linux and bigdata studying ......
展开
-
mapreduce优化之自定义combiner
自定义combinermap端合并数据,减少网络io一、普通的combiner二、自定义combiner,实现自由合并map端合并数据,减少网络io前言:在map端使用combiner合并数据可以减少需要通过网络io的数据,有效增加map reduce程序的运行效率。一、普通的combiner在map端提前使用combiner合并数据是广为人知的一种优化策略。但是这种优化策略有两个缺陷,一个是数据量要比较大,不过考虑到map reduce程序处理的数据一般都是大量的数据,所以这个问题不是关键。使原创 2020-10-14 21:25:16 · 675 阅读 · 1 评论 -
hadoop相关面试题
hadoop相关面试题以下未实际验证,可借鉴不可笃信。hadoop相关面试题1.hdfs写流程2.hdfs读流程3.hdfs的体系结构4.一个datanode 宕机,怎么一个流程恢复5.hadoop 的 namenode 宕机,怎么解决6.namenode对元数据的管理7.元数据的checkpoint8.yarn资源调度流程9.hadoop中combiner和partition的作用10.用mapreduce怎么处理数据倾斜问题?11.shuffle 阶段,你怎么理解的12.Mapreduce 的 map原创 2020-10-10 21:16:02 · 1089 阅读 · 2 评论 -
mapreduce获取共同好友分析
MapReduce 获取共同好友分析MapReduce程序的逆向分析MapReduce 获取共同好友分析一、题目二、分析由底向上分析三、总结1由上述情况可以总结map reduce程序的两个特性:1.1、map程序处理数据总是将一个数据切分,然后组成新的数据;逆操作是切分,然后组成原数据。1.2、reduce程序处理数据总是将values组合起来,然后结合key进行最终输出;逆操作是分开key-value,然后对value进行切分,再结合key还原原数据。四、备注:1、map处理数据有可能使用InputF原创 2020-09-19 20:46:51 · 356 阅读 · 0 评论 -
HadoopHA的配置文件与启动步骤
HadoopHA的配置文件与启动步骤这份文档所实现的hadoop集群namenodeHA和yarnHA。Hadoop版本是2.7.2。zookeeper版本是3.4.10.一、Hadoop用户自定义文档可以归纳为4+3+1模式。4指的是core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml四个配置文件。Core是核心配置信息,hdfs是hadoop distribued file system(hadoop分布式文件系统)的配置信息,yarn原创 2020-09-12 20:07:57 · 859 阅读 · 1 评论