大数据美文

最新推荐文章于 2025-03-23 23:32:29 发布

bingoabin

最新推荐文章于 2025-03-23 23:32:29 发布

阅读量9.5w

点赞数 3

CC 4.0 BY-SA版权

分类专栏：大数据 hadoop 文章标签：大数据 hadoop 技术生态圈文件系统

本文链接：https://blog.youkuaiyun.com/bingoxubin/article/details/79275822

大数据同时被 2 个专栏收录

65 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

hadoop

47 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了大数据处理的生态系统，从Hadoop的HDFS文件系统到MapReduce、Spark等计算引擎，再到Hive、Pig等高级语言抽象，以及流计算和KV Store的作用。通过比喻厨房中的工具，阐述了大数据处理中的各种技术和它们的适用场景，揭示了大数据处理的复杂性和多样性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大数据本身是个很宽泛的概念，Hadoop生态圈（或者泛生态圈）基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各的用处，互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤，你可以用小刀或者刨子去皮。但是每个工具有自己的特性，虽然奇怪的组合也能工作，但是未必是最佳选择。

大数据，首先你要能存的下大数据。
传统的文件系统是单机的，不能横跨不同的机器。HDFS（Hadoo上。你作为用户，不需要知道这些，就好比在单机上你不关心文件分散在什么磁道什么扇区一样。HDFS为你管理这些数据。p Distributed FileSystem）的设计本质上是为了大量的数据能横跨成百上千台机器，但是你看到的是一个文件系统而不是很多文件系统。比如你说我要获取/hdfs/tmp/file1的数据，你引用的是一个文件路径，但是实际的数据存放在很多不同的机器

存的下数据之后，你就开始考虑怎么处理数据。虽然HDFS可以为你整体管理不同机器上的数据，但是这些数据太大了。一台机器读取成T上P的数据（很大的数据哦，比如整个东京热有史以来所有高清电影的大小甚至更大），一台机器慢慢跑也许需要好几天甚至好几周。对于很多公司来说，单机处理是不可忍受的，比如微博要更新24小时热博，它必须在24小时之内跑完这些处理。那么我如果要用很多台机器处理，我就面临了如何分配工作，如果一台机器挂了如何重新启动相应的任务，机器之间如何互相通信交换数据以完成复杂的计算等等。这就是MapReduce / Tez / Spark的功能。MapReduce是第一代计算引擎，Tez和Spark是第二代。MapReduce的设计，采用了很简化的计算模型，只有Map和Reduce两个计算过程（中间用Shuffle串联），用这个模型，已经可以处理大数据领