云计算中的数据分析与应用
1. MapReduce 简介
在处理问题时,我们总会寻求解决方案,但有些方案并不具备可扩展性。例如,NP(非多项式)类算法的运行时间会随数据集规模的增大呈指数级增长。而 MapReduce 为处理大型数据集提供了一种可行的解决方案。
MapReduce 的工作原理是将输入数据分割成独立的块,这些块被映射到不同的处理器上并行处理。然后,将每个映射任务的输出进行合并(即归约),得到的最终输出与按顺序处理原始数据的结果相同。
以统计某本书中“Cloud”一词的使用次数为例,传统的单线程程序会逐词读取、比较并更新计数器。由于书中单词数量众多,这种顺序算法会逐页处理。而采用 MapReduce 算法,可将每一页映射到不同的处理器,每个处理器并行运行顺序算法并更新自己的计数器,最后将所有计数器的值相加。这样,虽然增加了分割(映射)和最终归约任务的开销,但由于每个线程只需处理一页,运行时间会大幅缩短。
下面是串行和并行搜索方案的对比流程图:
graph LR
classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px
classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px
subgraph 串行搜索
A([开始]):::startend --> B(读取一个单词
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



