目录
2. Hadoop MapReduce 的架构:从宏观到微观
1. MapReduce 的核心思想:分而治之的艺术
MapReduce 是什么?简单来说,它是 大数据处理的瑞士军刀,一种通过 分而治之 解决海量数据计算的编程模型。它的核心思想并不复杂:将大问题拆成小块(Map),各自处理后再汇总(Reduce)。但这看似简单的背后,隐藏着一套精巧的分布式系统设计,涉及任务调度、数据分片、容错机制等。
假设你有一堆日志文件,几十个 GB,想统计每个 IP 地址的访问次数。单机处理?可能要跑好几天,还得担心内存