MR是什么
MR是一个 分布式计算编程模型
Google在2004年提出来MR模型,后来Hadoop借鉴了。
我们通过他提供的一些接口和类就可以实现分布式计算。
MR解决了海量数据的计算。
(Map并行计算;Reduce汇总)
MR概述
用户只要写Map和Reduce的实现就可以了。
MR的输入和输出都是key、value对。Hadoop1.0时代: MR老大叫JobTracker(只能运行MR)小弟叫TaskTracker
Hadoop2.0时代:MR老大叫RM(资源管理者) 小弟叫NM(NodeManager)
首先将计算的数据上传到HDFS里面。
MR原理
只需要实现Map和Reduce方法。
在Map和Reduce方法中分别实现自己的逻辑。
不同的公司可以根据自己的情况来实现自己的业务,底层细节不用自己关心
M、R的输入输出都是key-value形式
M将数据给R之前进行了分组(Group)
==》