Hadoop简介(1)

Hadoop:

                适合大数据的分布式存储和计算平台.Hadoop中的核心就是HDFS(Hadoop Distributed File System)hadoop分布式文件系统,还有一个就是MapReduce并行计算框架.

Hadoop分布式文件系统:

                当数据集的大小超过一台独立物理计算机的存储能力时,就有必要对它进行分区(Partition),并存储到若干台单独的计算机上,管理网络中跨多台计算机存储的文件系统称为分布式文件系统(Distributed File System)。

                Hadoop有一个称为HDFS的分布式文件系统,全程Hadoop Distributed File System。在非正式文档或旧文档以及配置文件中,有时也简称为DFS

Hadoop中的MapReduce计算框架:

                在Hadoop中,其实处理数据都是由MapReduce来进行处理,首先由Map过滤数据或其他操作,在Map的输出时Reduce端的输入,Reduce端拿到Map端的输出后,分别对数据进行分区,排序,分组,聚合等操作,最后Reduce端把处理后的数据输出到HDFS中进行存储,再后可以把处理的数据提取并做其他相应需求操作。


                                                                                                                                     Name:Xr

                                                                                                                                     Date:2014-2-21 晚:22:28                                                                                              


转载于:https://my.oschina.net/Xiao629/blog/201964

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值