一、引入问题
问题1:100副牌,没有大小王,差一张牌,确定缺少的那张牌。
问题2:100GB网站访问日志文件,找出访问次数最多的IP地址。
二、MapReduce编程模型
MapReduce是一个分布式计算框架(编程模型),最初由由谷歌的工程师开发,基于GFS的分布式计算框架。后来Cutting根据《Google Mapreduce》,设计了基于HDFS的MapReduce分布式计算框架。
- Map
MapReduce是一个分布式计算框架(编程模型),最初由由谷歌的工程师开发,基于GFS的分布式计算框架。后来Cutting根据《Google Mapreduce》,设计了基于HDFS的MapReduce分布式计算框架。