大数据的处理

原创于 2014-08-04 17:28:56 发布 · 633 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文探讨了大数据时代下HDFS分布式文件系统的存储原理及MapReduce的计算框架。HDFS通过将大数据集划分为多个block并分布存储在集群中各节点的方式实现高效存储。而MapReduce则将任务分解为Map和Reduce两个阶段，在各节点上并行处理数据。

大数据时代，大家都在从数据中淘金。庞大的数据量隐藏着一些重要的信息，这些需要被挖掘，来辅助企业制定决策。

庞大的数据量如何转化为有价值的信息呢？

参考hadoop的设计，使用分布式文件系统hdfs来存储超大规模的数据集，使用分布式计算框架来处理数据。

其中hdfs的设计是一次写入，多次读取。

hdfs是如何存储大数据集的呢？

思想是将大数据集分布的存储在整个集群上。通过一个主节点namenode来管理。我们都知道，对数据的存储肯定是要落实的一件事情。

那么hdfs存储的数据的是什么呢？又存储到哪里了呢？

存储的数据是大数据集被分成的一个个相等的block，每个block通过网络copy到指定的节点。每个节点上可以存储适量的block。

那么一个block该往哪里存储呢？这个是由namenode指定，并记录的。

namenode 就是负责管理这些存储信息，并搭建一个逻辑目录树的角色。你存储需要跟namenode打招呼，下载也需要与namenode打交道。对于hdfs上的文件，只有namenode知道它们分布在那些节点上，也只有namenode知道节点上那些linux磁盘下的一个个block块是什么。

mapreduce将应用程式分发到每一个节点上，使用map处理对应的数据，并通过网络将map的结果汇总到reduce。

那么mapreduce的输入是什么？输出又是什么？

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。