27、云计算中的数据分析与应用-优快云博客

本文链接：https://blog.youkuaiyun.com/fox11/article/details/153098946

云计算中的数据分析与应用

1. MapReduce 简介

在处理问题时，我们总会寻求解决方案，但有些方案并不具备可扩展性。例如，NP（非多项式）类算法的运行时间会随数据集规模的增大呈指数级增长。而 MapReduce 为处理大型数据集提供了一种可行的解决方案。

MapReduce 的工作原理是将输入数据分割成独立的块，这些块被映射到不同的处理器上并行处理。然后，将每个映射任务的输出进行合并（即归约），得到的最终输出与按顺序处理原始数据的结果相同。

以统计某本书中“Cloud”一词的使用次数为例，传统的单线程程序会逐词读取、比较并更新计数器。由于书中单词数量众多，这种顺序算法会逐页处理。而采用 MapReduce 算法，可将每一页映射到不同的处理器，每个处理器并行运行顺序算法并更新自己的计数器，最后将所有计数器的值相加。这样，虽然增加了分割（映射）和最终归约任务的开销，但由于每个线程只需处理一页，运行时间会大幅缩短。

下面是串行和并行搜索方案的对比流程图：

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px
    classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px

    subgraph 串行搜索
    A([开始]):::startend --> B(读取一个单词