
云计算-Hadoop
文章平均质量分 69
xiao_fu_ying
这个作者很懒,什么都没留下…
展开
-
HDFS文件系统
Hadoop主要由HDFS和MapReduce引擎两部分组成。 •http://hadoop.apache.org/ 从0.20.X分支发展出hadoop 1.0.X版 目前是稳定版本。生产环境优先使用。 分布式文件系统(DFS) 1、是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的用户分享文件和存储空间。 2、对用户透明。用户看来就像访问本地的磁盘一样。 3、容错性。原创 2013-06-23 23:34:51 · 1073 阅读 · 0 评论 -
combiner学习要点
一、作用 1、combiner最基本是实现本地key的聚合,对map输出的key排序,value进行迭代。如下所示: map: (K1, V1) → list(K2, V2) combine: (K2, list(V2)) → list(K2, V2) reduce: (K2, list(V2)) → list(K3, V3) 2、combiner还具有类似本地的reduc转载 2013-07-01 18:04:34 · 1000 阅读 · 0 评论 -
MapReduce高级编程之本地聚集与Combinner
本篇主要介绍Combinner,这个MapReduce Shuffle中占有重要地位,他能减少磁盘I/O以及网络Fetch时的数据迁移量,在MapReduce Shuffle中存在着三次排序(Map端两次,reduce端一次),每次排序时便会用上一次Combinner函数,也就是这个可有可无的函数一旦定义会被三次调用~~ 然而Combinner的使用需要注意程序的差错性,而且有些情转载 2013-07-01 18:03:02 · 699 阅读 · 0 评论 -
Hadoop学习
《Hadoop实战》作为云计算所青睐的分布式架构,Hadoop是一个用Java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式 计算,是谷歌实现云计算的重要基石。《Hadoop实战》分为3个部分,深入浅出地介绍了Hadoop框架、编写和运行Hadoop数据处理程序所需的实 践技能及Hadoop之外更大的生态系统。 《Hadoop实战》适合需要处理大量离线数据的云计算程序员、架构原创 2013-07-01 01:20:14 · 728 阅读 · 0 评论 -
Java和Hadoop的关系
Hadoop的创始人是Doug Cutting, 同时也是著名的基于Java的检索引擎库Apache Lucene的创始人。Hadoop本来是用于著名的开源搜索引擎Apache Nutch,而Nutch本身是基于Lucene的,而且也是Lucene的一个子项目。因此Hadoop基于Java就很理所当然了,所以,Hadoop是由Java编写的。 Hadoop采用Java编写,因而Hadoop天原创 2013-07-01 01:42:11 · 6106 阅读 · 0 评论 -
hadoop面试-1
1、hadoop运行的原理? hadoop就是map 和 reduce的过程。服务器上一个目录节点+多个数据节点。将程序传送到各个节点,在数据节点上进行计算 2、mapreduce的原理? 将数据存储到不同节点,用map方式对应管理,在各个节点进行计算,采用reduce进行合并结果集 3、HDFS存储的机制? 就是通过java程序和目录节点配合,将数据存放到转载 2013-06-23 21:25:33 · 1577 阅读 · 0 评论 -
Hadoop主要子项目
Hadoop Common: 在0.20及以前的版本中,包含HDFS、MapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce被分离为独立的子项目,其余内容为Hadoop Common * HDFS: Hadoop 分佈式文件系統 (Distributed File System) - HDFS (Hadoop Distributed File System) * Ma原创 2013-07-01 01:22:57 · 1229 阅读 · 0 评论 -
Hadoop基本概念
一、服务形式 Saas(Software as a Service)基础设施作为服务、Paas(Platform as a service)平台作为服务、Iaas(Infrastructure as a Service)软件作为服务。 二、云计算技术体系结构 物理资源层:计算机、存储器、网络设施、数据库、软件。 资源池层:计算资源池、存储资源池、原创 2013-06-23 16:16:27 · 770 阅读 · 0 评论 -
Hadoop生态圈
MapReduce:分布式数据处理模型和执行环境、运行于大型商用机集群。 ZooKeeper:一个分布式、高可用的协调服务。ZooKeeper提供分布式锁之类的基本服务用于构建分布式应用。 HDFS: 分布式文件系统,运行于大型商用机集群。 Hadoop体系最底层的一个模块。为Hadoop各子项目提供各种工具,如:配置文件和日志操作等。 HBase: 一个分布式、按原创 2013-06-23 22:41:36 · 853 阅读 · 0 评论 -
Hive入门 准备用于ETL
Hive 是什么 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reduc转载 2013-08-16 09:42:31 · 5713 阅读 · 0 评论