
hadoop
文章平均质量分 88
starxu85
这个作者很懒,什么都没留下…
展开
-
用Hadoop搭建分布式存储和分布式运算集群
1. 列出使用的机器普通PC,要求:cpu: 750M-1Gmem: >128Mdisk: >10G不需要太昂贵的机器。机器名:finewine01finewine02finewine03将finewine01设为主节点,其它的机器为从节点。2. 下载和生成从这里checkout,我选择trunkhttp://svn.apache.org/repos/asf/lucene/原创 2008-02-26 00:53:00 · 1369 阅读 · 0 评论 -
分布式计算开源框架Hadoop入门实践(三)
Hadoop基本流程一个图片太大了,只好分割成为两部分。根据流程图来说一下具体一个任务执行的情况。在分布式环境中客户端创建任务并提交。 InputFormat做Map前的预处理,主要负责以下工作:验证输入的格式是否符合JobConfig的输入定义,这个在实现Map和构建Conf的时候就会知道,不定义可以是Writable的任意子类。 将input的文件切分为逻原创 2009-02-22 14:39:00 · 1069 阅读 · 0 评论 -
分布式计算开源框架Hadoop入门实践(二)
其实参看Hadoop官方文档已经能够很容易配置分布式框架运行环境了,不过这里既然写了就再多写一点,同时有一些细节需要注意的也说明一下,其实也就是这些细节会让人摸索半天。Hadoop可以单机跑,也可以配置集群跑,单机跑就不需要多说了,只需要按照Demo的运行说明直接执行命令即可。这里主要重点说一下集群配置运行的过程。环境7台普通的机器,操作系统都是Linux。内存和CPU就不说了,反正原创 2009-02-22 14:38:00 · 780 阅读 · 0 评论 -
分布式计算开源框架Hadoop入门实践(一)
分布式计算开源框架Hadoop入门实践(一)在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《Tiger Concurrent Practice --日志分析并行分解设计与实现》中有所提到。但是由于统计的内容暂时还是十分简单,所以就采用Memcache作为计数器,结合MySQL就完成了访问控制以及统计的工作。然而未来,对于海量日志原创 2009-02-22 14:34:00 · 959 阅读 · 0 评论 -
用 Hadoop 进行分布式并行编程, 第 2 部分
前言 在上一篇文章:“用 Hadoop 进行分布式并行编程 第一部分 基本概念与安装部署”中,介绍了 MapReduce 计算模型,分布式文件系统HDFS,分布式并行计算等的基本原理, 并且详细介绍了如何安装 Hadoop,如何运行基于 Hadoop的并行程序。在本文中,将针对一个具体的计算任务,介绍如何基于 Ha原创 2009-02-16 13:59:00 · 1013 阅读 · 0 评论 -
用 Hadoop 进行分布式并行编程, 第 1 部分
Hadoop 简介 Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架,由于分布式存储对于分布式编程来说是必不可少的,这个框架中还包含了一个分布式文件系统HDFS( Hadoop Distributed File System )。也许到目前为止,Hadoop还不是那么广为人知,其最新的版本号也仅仅是 0原创 2009-02-16 14:01:00 · 1062 阅读 · 0 评论 -
用 Hadoop 进行分布式并行编程, 第 3 部分
一 前言 在本系列文章的第一篇:用 Hadoop 进行分布式并行编程,第 1 部分: 基本概念与安装部署中,介绍了 MapReduce 计算模型,分布式文件系统 HDFS,分布式并行计算等的基本原理, 并且详细介绍了如何安装 Hadoop,如何在单机及伪分布式环境 (在一台单机中用多进程模拟) 运行基于 Hadoop 的并原创 2009-02-16 14:03:00 · 944 阅读 · 0 评论 -
Annotated Hadoop: 第二节 MapReduce框架结构
2 MapReduce框架结构Map/Reduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的,Google已经将它完整的MapReduce论文公开发布了。其中对它的定义是,Map/Reduce是一个编程模型(programming model),是一个用于处理和生成大规模数据集(processing and generating lar原创 2008-04-18 14:07:00 · 1167 阅读 · 0 评论 -
Annotated Hadoop: 第一节 Hadoop是什么
1 Hadoop是什么 Hadoop原来是Apache Lucene下的一个子项目,它最初是从Nutch项目中分离出来的专门负责分布式存储以及分布式运算的项目。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。下面列举hadoop主要的一些特点: 1 扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节原创 2008-04-18 14:06:00 · 933 阅读 · 0 评论 -
雅虎架构师谈MapReduce和Hadoop的未来
Hadoop是一个开源的分布式计算平台,它主要由MapReduce的算法执行和一个分布式的文件系统等两部分组成。InfoQ曾经刊登过一篇Jeremy Zawodny写的有关Hadoop速度提升的综述性文章。这次InfoQ的资深Java编辑Scott Delap和Hadoop项目负责人Doug Cutting进行了一次专访。在这次InfoQ的专访中,Cutting论述了Hadoop是如何在Yaho原创 2008-04-18 14:01:00 · 791 阅读 · 0 评论 -
IBM推动MapReduce发布Eclipse插件
近日,IBM在其开发技术网站Alphaworks发布了一个Eclipse插件-IBM MapReduce Tools for Eclipse,通过该插件,开发者可以在Eclipse上创建MapReduce应用程序。 它使用了Hadoop开源MapReduce框架,该框架可以使数据密集型应用程序运行在一般硬件的大型群集之上。 Hadoop是Google labs 的MapReduce的一个原创 2008-02-26 01:05:00 · 1112 阅读 · 0 评论 -
hadoop 分布式文件系统:体系和设计
1.介绍hadoop文件系统(HDFS)是一个运行在普通的硬件之上的分布式文件系统,它和现有的分布式文件系统有着很多的相似性,然而和其他的分布式文件系统的区别也是很明显的,HDFS是高容错性的,可以部署在低成本的硬件之上,HDFS提供高吞吐量地对应用程序数据访问,它适合大数据集的应用程序,HDFS放开一些POSIX的需求去实现流式地访问文件数据,HDFS开始是为开源的apache项目nutch原创 2008-02-26 00:51:00 · 1438 阅读 · 0 评论 -
类似Google构架的开源项目Hadoop近获社区关注
类似Google构架的开源项目Hadoop 已经存在一年多了,现在正受到来自开发社区的广泛关注。下面是来自Hadoop官网 的消息: Hadoop是一个软件平台,可以让你很容易地开发和运行处理海量数据的应用……Hadoop是MapReduce 的实现,它使用了Hadoop分布式文件系统(HDFS)。MapReduce将应用切分为许多小任务块去执行。出于保证可靠性的考虑,HDFS会为数据块创建多翻译 2008-02-26 00:48:00 · 760 阅读 · 0 评论 -
hadoop作业调优参数整理及原理
hadoop作业调优参数整理及原理转载 2011-02-27 23:48:00 · 3491 阅读 · 0 评论