24、大数据处理系统的发展历程与演进

原创于 2025-08-11 15:45:40 发布 · 60 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#大数据处理 # MapReduce # Hadoop

流处理系统的深度解析与应用专栏收录该内容

27 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

大数据处理系统的发展历程与演进

1. 引言

外界对谷歌所做的工作很感兴趣，毕竟谷歌在这方面过去一直比较低调。接下来，我们将沿着时间线，介绍各种系统的发展历程，以及它们对现代流处理生态系统的贡献。

2. MapReduce：大数据处理的开端

2003 年，MapReduce 的诞生开启了大规模数据处理的时代。当时，谷歌的工程师们为应对万维网规模的数据处理挑战，构建了各种定制系统。在这个过程中，他们发现了数据处理面临的三大难题：
- 数据处理困难 ：数据科学家和工程师们深知，从原始数据中提取有用信息并非易事，甚至可以成为一生的事业追求。
- 可扩展性困难 ：在大规模数据上提取有用信息更是难上加难。
- 容错性困难 ：在通用硬件上以容错且正确的方式从大规模数据中提取有用信息，简直是一项艰巨的任务。

在解决了多个用例中的这三个挑战后，他们发现所构建的定制系统存在一些相似之处。于是得出结论：如果能构建一个框架来解决可扩展性和容错性问题，专注于数据处理问题就会简单很多。这便是 MapReduce 的诞生背景。

MapReduce 的基本思想是提供一个简单的数据处理 API，围绕函数式编程领域的两个常见操作：map 和 reduce。使用该 API 构建的管道将在分布式系统框架上执行，该框架负责处理所有棘手的可扩展性和容错性问题。

MapReduce 工作流程可分为六个离散阶段：MapRead、Map、MapWrite、ReduceRead、Reduce、ReduceWrite。从高层次来

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。