
Hadoop
twlkyao
AlienTech for better life
展开
-
Eclipse下搭建Hadoop开发环境,并运行第一个实例
有同学无法正常运行程序,这里将Eclipse下Hadoop环境配置进行一下说明: 1.新建Map/Reduce工程 2.设置Hadoop Locaiton,第一次使用的话,点击大象,新建配置。 3.设置内容(配置需要和Hadoop的配置文件相同): Location name和Host填写localhost,Map/Reduc原创 2013-12-26 11:33:31 · 11809 阅读 · 9 评论 -
Hadoop1.0与Hadop2.0架构比较
刚刚看到一篇文章对 hadoop1 和 hadoop 2 做了一个解释 图片不错 拿来看看 Hadoop 1.0 从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路:首先用户程序 (JobClient) 提交了一个 job,job 的信息会发送到 Job Tracker 中,Job Tracker 是 Map-reduce 框转载 2013-12-21 15:20:46 · 1344 阅读 · 0 评论 -
大数据能做什么
Hadoop和大数据是这两年最火的词儿们之一,越来越多的公司对这个东西感兴趣,但是我接触到的大多数公司里的人,无论是技术人员还是老板。都不知道怎么能把这些东西用于改善自己公司的业务。在解答的过程中,提炼出几个要点,记录一下。 大数据和云是不是一回事?这是最容易混淆的概念之一,我个人认为这是两回事,云服务,无论是云主机还是云存储还是云的其他应用,都是向用户提供一个接口,但这个转载 2013-12-21 14:25:28 · 1364 阅读 · 0 评论 -
Hadoop之MapReduce WordCount分析
MapReduce的设计思想主要的思想是分而治之(divide and conquer),分治算法。将一个大的问题切分成很多小的问题,然后在集群中的各个节点上执行,这既是Map过程。在Map过程结束之后,会有一个Ruduce的过程,这个过程即将所有的Map阶段产出的结果进行汇集。写MapReduce程序的步骤:1.把问题转化为MapR转载 2013-12-21 19:19:45 · 2445 阅读 · 1 评论 -
王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第十一讲Hadoop图文训练课程:MapReduce的原理机制和流程图剖析
这一讲我们主要剖析MapReduce的原理机制和流程。 “云计算分布式大数据Hadoop实战高手之路”之完整发布目录 云计算分布式大数据实战技术Hadoop交流群:312494188,每天都会在群中发布云计算实战性资料,欢迎大家加入! 关于MapReduce,你至少需要知道以下几点:1, MapReduce是运行于分布式文件系转载 2013-12-21 19:03:39 · 1490 阅读 · 0 评论 -
王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第十讲Hadoop图文训练课程:剖析Hadoop的重要配置文件
本讲主要剖析Hadoop重要的配置文件。 王家林的“云计算分布式大数据Hadoop实战高手之路”之完整发布目录 云计算分布式大数据实战技术Hadoop交流群:312494188,每天都会在群中发布云计算实战性资料,欢迎大家加入! 在前面我们安装单机版Hadoop以及Hadoop集群的时候,我们使用的只是可以工作的最小化配置项,有很多重要的配置项都还没转载 2013-12-21 19:02:33 · 1346 阅读 · 0 评论 -
王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第九讲Hadoop图文训练课程:剖析NameNode和Secondary NameNode的工作机制和流程
本讲主要剖析SecondaryNameNode。 “云计算分布式大数据Hadoop实战高手之路”之完整发布目录云计算分布式大数据实战技术Hadoop交流群:312494188,每天都会在群中发布云计算实战性资料,欢迎大家加入! Hadoop在启动的时候,会启动SecondaryNameNode,我们使用JPS命令查看一下查看一下Hadoop启动时启动了那些进转载 2013-12-21 19:01:40 · 1541 阅读 · 0 评论 -
云计算分布式大数据Hadoop实战高手之路第八讲Hadoop图文训练课程:Hadoop文件系统的操作实战
本讲通过实验的方式讲解Hadoop文件系统的操作。“云计算分布式大数据Hadoop实战高手之路”之完整发布目录云计算分布式大数据实战技术Hadoop交流群:312494188,每天都会在群中发布云计算实战性资料,欢迎大家加入! 首先我们看一些比较常用的Hadoop文件系统的操作命令:第一个常用命令:hadoop fs –ls例如使用以下命令是列出文件转载 2013-12-21 19:00:40 · 1307 阅读 · 0 评论 -
云计算分布式大数据Hadoop实战高手之路第七讲Hadoop图文训练课程:通过HDFS的心跳来测试replication具体的工作机制和流程
这一讲主要深入使用HDFS命令行工具操作Hadoop分布式集群,主要是通过实验的配置hdfs-site.xml文件的心跳来测试replication具体的工作和流程。通过HDFS的心跳来测试replication具体的工作机制和流程的PDF版本请猛击这里。 王家林的“云计算分布式大数据Hadoop实战高手之路”之完整发布目录 云计算分布式大数据实战技术Had转载 2013-12-21 18:59:24 · 1269 阅读 · 0 评论 -
王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第五讲Hadoop图文训练课程:解决典型Hadoop分布式集群环境搭建问题
王家林 第四讲Hadoop图文训练课程:实战构建真正的Hadoop分布式集群环境Hadoop集群搭建的过程中出现的问题,具体的解决步骤是:Step 1:查询Hadoop的日志看出错原因在哪里;Step 2:停止集群工作;Step 3:根据日志指出的原因进行解决,针对我们这里的问题,需要清空hadoop.main机器的hadoop根目录下的hdfs下的data文件;S转载 2013-12-21 18:16:56 · 1915 阅读 · 0 评论 -
关于学习Hadoop中未总结的资料
1)Cygwin相关资料 (1)Cygwin上安装、启动ssh服务失败、ssh localhost失败的解决方案 地址:http://blog.163.com/pwcrab/blog/static/16990382220107267443810/ (2)windows2003+cygwin+ssh 地址:http://wenku.baidu.com/view转载 2013-12-21 16:57:09 · 1131 阅读 · 0 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 Ma转载 2013-12-21 15:22:20 · 1277 阅读 · 0 评论 -
王家林 云计算分布式大数据Hadoop实战高手之路---从零开始 第二讲:全球最详细的从零起步搭建Hadoop单机和伪分布式开发环境图文教程
工欲善其事,必先利其器。本文从零起步构建Hadoop单机版本和伪分布式的开发环境,图文并茂,不放过任何一个细节,涉及:1,开发Hadoop需要的基本软件;2, 安装每个软件;3, 配置Hadoop单机模式并运行Wordcount示例;4, 配置Hadoop伪分布式模式并运行Wordcount示例; 王家林的“云计算分布式大数据Hadoop实战转载 2013-12-21 18:04:15 · 2396 阅读 · 0 评论 -
Hadoop入门实践之从WordCount程序说起
这段时间需要学习Hadoop了,以前一直听说Hadoop,但是从来没有研究过,这几天粗略看完了《Hadoop实战》这本书,对Hadoop编程有了大致的了解。接下来就是多看多写了。以Hadoop自带的例子WordCount程序开始,来记录我的Hadoop学习过程。Hadoop自带例子WordCount.java[java] view plaincopy转载 2013-12-27 20:01:06 · 1197 阅读 · 0 评论 -
Hadoop2.2.0的Eclipse插件
AlienTech for better life!~原创 2013-12-15 15:57:36 · 5510 阅读 · 5 评论 -
Hadoop第一个程序,利用API向HDFS中写入数据
参考:http://f.dataguru.cn/thread-85493-1-1.html这时学习Hadoop以来写的第一个成功的程序,程序仿照《Hadoop实战》中的PutMerge程序,这里有几个要注意的地方:1.hdfs的地址是一个网络地址,如下面的:hdfs://localhost:9000/test32.确保不会出现“权限不足”的异常转载 2013-12-27 19:59:13 · 2811 阅读 · 0 评论 -
hadoop杂记-为什么会有Map-reduce v2 (Yarn)
前言:有一段时间没有写博客了(发现这是我博客最常见的开头,不过这次间隔真的好长),前段时间事情比较多,所以耽搁得也很多。现在准备计划写一个新的专题,叫做《hadoop杂记》,里面的文章有深有浅,文章不是按入门-中级-高级的顺序组织的,如果想看看从入门到深入的书,比较推荐《the definitive guide of hadoop》。今天主要想写写关于map-reduce v2(或者叫转载 2013-12-08 11:42:49 · 1558 阅读 · 0 评论 -
Hadoop源码分析之Configuration
org.apache.hadoop.conf.Configuration类是Hadoop所有功能的基础类,每一种功能执行之前都需要有先得到一个Configuration对象。Hadoop使用了XML文件作为配置文件,来保存运行时的配置信息,然后将配置加载到Configuration对象中,要使用配置信息时直接从Configuration对象中取。Hadoop配置文件将下载的Ha转载 2013-12-24 21:15:18 · 1583 阅读 · 0 评论 -
Ubuntu 编译安装Hadoop-2.2.0
Map Reduce什么的我是不懂啊。 今天是帮马同学搭建hadoop。 用的2.2.0版本,结果运行时发现提示 “libhadoop.so.1.0.0 which might have disabled stack guard” 的警告。 Google了一下发现是因为 hadoop 2.2.0提供的是libhadoop.so库是32位的,而我们的机器是64位。 解决的办法就是重新在64位的机器上转载 2013-12-24 10:14:16 · 2386 阅读 · 0 评论 -
Setup newest Hadoop 2.x (2.2.0) on Ubuntu
In this tutorial I am going to guide you through setting up hadoop 2.2.0 environment on Ubuntu.Prerequistive$ sudo apt-get install openjdk-7-jdk$ java -versionjava version "1.7.0_25"OpenJDK R转载 2013-11-26 20:47:10 · 1941 阅读 · 0 评论 -
Hadoop常用端口(以Hadoop2.2.0为例,不保证其他版本)
AlienTech for better life!~原创 2013-12-14 11:57:11 · 3798 阅读 · 0 评论 -
王家林 第六讲Hadoop图文训练课程:使用HDFS命令行工具操作Hadoop分布式集群初体验
这一讲主要使用HDFS命令行工具操作Hadoop分布式集群初体验: Step 1:使用HSFS命令向Hadoop分布式集群存放一个大文件; Step 2:删除文件并用两份副本在HDFS上存放数据; 使用HDFS命令行工具操作Hadoop分布式集群初体验PDF版本教程请猛击这里 王家林的“云计算分布式大数据Hadoop实战高手之路”之完转载 2013-12-21 18:21:36 · 1780 阅读 · 1 评论 -
王家林的第三讲Hadoop图文训练课程:证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程
此教程是王家林编写的“云计算分布式大数据Hadoop实战高手之路---从零开始”第三讲:证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程。具体的PDF版本教程请猛击这里。王家林的“云计算分布式大数据Hadoop实战高手之路”之完整目录 王家林亲授的上海7月6-7日云计算分布式大数据Hadoop深入浅出案例驱动实战 王家林把自己几年转载 2013-12-21 18:11:38 · 1324 阅读 · 0 评论 -
Hadoop 2.2.0 (YARN)搭建笔记
最近工作需要,摸索着搭建了Hadoop 2.2.0(YARN)集群,中间遇到了一些问题,在此记录,希望对需要的同学有所帮助。 本篇文章不涉及hadoop2.2的编译,编译相关的问题在另外一篇文章《hadoop 2.2.0 源码编译笔记》中说明,本篇文章我们假定已经获得了hadoop 2.2.0的64bit发行包。 由于spark的兼容问题,我们后面使用了转载 2013-12-21 15:11:04 · 1513 阅读 · 1 评论 -
王家林“云计算分布式大数据Hadoop实战高手之路---从零开始”的第一讲Hadoop图文训练课程:10分钟理解云计算分布式大数据处理框架Hadoop
第1分钟: Hadoop要解决的问题是什么? 答:Hadoop核心要解决长期IT界乃至人类社会的两大主题: 1, 海量数据的存储:传统的存储方式昂贵而且日益难以满足核裂变级别数据的增长,例如纽约证券交易所每天要产生T级别的数据量,Facebook要每天要服务过亿的用户(其中图片等数据`量是惊人的),如何使用廉价的设备支持无线增长的数据的安全高效的存储转载 2013-12-21 14:50:52 · 1432 阅读 · 0 评论 -
Hadoop2.2.0源码分析(一)——Eclipse运行WordCount.java
AlienTech for better life!~原创 2013-12-20 23:11:38 · 6783 阅读 · 4 评论 -
编译Hadoop 2.x Hadoop-eclipse-plugin插件
经过hadoop1.x的发展,编译hadoop2.x版本的eclipse插件视乎比之前要轻松的多。如果你不在意编译过程中提示的警告,那么根据how to build - hadoop2x-eclipse-plugin文档就可一步到位。若想自己设置部分变量,可参考编译hadoop 1.2.1 Hadoop-eclipse-plugin插件。主要步骤介质准备执行安装转载 2013-12-15 16:02:26 · 9382 阅读 · 0 评论 -
HDFS Error while copying the file : Could only be replicated to 0 nodes, instead of 1
AlienTech for better life!~原创 2013-12-14 16:47:46 · 2426 阅读 · 0 评论 -
Hadoop常见问题及解决方案
问题一: 2010-10-18 01:18:45,050 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException:Incompatible namespaceIDs in /usr/local/hadoop/tmp/dfs/data: namenode namespaceID = 15017333转载 2013-12-14 16:38:11 · 1218 阅读 · 0 评论 -
Hadoop集群配置(最全面总结)
Hadoop集群配置(最全面总结) huangguisu 通常,集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves\官方地址:(http://hadoop.apache.org/common/docs/r0.19.2/c转载 2013-12-14 11:20:13 · 1199 阅读 · 0 评论 -
Hadoop实战-初级部分 之 Hadoop安装部署
视频课程地址》》》 http://sishuok.com/product/481整体课程概览第一部分:开始云计算之旅第二部分:初识Hadoop第三部分:Hadoop 环境安装部署第四部分:Hadoop Shell 基本操作介绍第五部分:Hadoop 分布式文件系统1第五部分:Hadoop 分布式文件系统2第五部分:Hadoop 分布式文件系统3转载 2013-12-14 11:10:22 · 977 阅读 · 0 评论 -
Hadoop学习笔记之五:使用Eclipse插件
引言在开发调试过程中,需要将程序打包,运行任务后通过命令或web界面查看运行输出及job运行情况,这个比较繁琐,下面介绍的eclipse插件可以简化这个过程,方便调试。插件安装Hadoop的eclipse plugin跟hadoop发行版一起分发,到hadoop安装目录\ contrib\eclipse-plugin下可以找到该插件。在试用过程中发现不支持ecl转载 2013-12-15 22:37:59 · 1599 阅读 · 0 评论 -
Hadoop集群系列(目录)
下面是Hadoop集群系列的目录安排,按照一星期发布一期的原则进行。希望大家的关注。 目录安排: 1)Hadoop集群_第1期_CentOS安装配置_V1.0 2)Hadoop集群_第2期_机器信息分布表_V1.1 3)Hadoop集群_第3期_VSFTP安装配置_V1.0 4)Hadoop集群_第4期_SecureCRT使用_V1.0转载 2013-12-15 17:48:42 · 1348 阅读 · 0 评论 -
编译hadoop 1.2.1 Hadoop-eclipse-plugin插件
编译hadoop1.x.x版本的eclipse插件为何如此繁琐?个人理解,ant的初衷是打造一个本地化工具,而编译hadoop插件的资源间的依赖超出了这一目标。导致我们在使用ant编译的时候需要手工去修改配置。那么自然少不了设置环境变量、设置classpath、添加依赖、设置主函数、javac、jar清单文件编写、验证、部署等步骤。那么我们开始动手主要步骤如下设转载 2013-12-15 16:04:48 · 2920 阅读 · 0 评论 -
Hadoop在Ubuntu下的安装配置(配置成功)
前面均在windows下进行,但是在安装hadoop过程中出了一些问题,先暂时切换到linux下,回头再补充windows下的安装。不过通过对比确实发现,在linux下的安装配置确实比较简单。一.安装ubuntu 我是下载的ubuntu12.04,在64位的虚拟机上使用virtualbox安装的,没错,是在虚拟机上在安装虚拟机,然后安装ubuntu具体安装过程就不描述了,转载 2013-11-26 20:08:28 · 2443 阅读 · 3 评论 -
在oracle Virtual Box 虚拟机中搭建hadoop1.2.1完全分布式环境
一、初衷对于学习Hadoop的我来将,没有足够的硬件设备,但又想安装完全分布式的Hadoop,一个master两个slave。手上就一台能联网的笔记本,那就使用oracle vitual box进行环境搭建把。环境搭建的效果为:在虚拟机中虚拟3台centos6.4 64位系统,每台都配置双网卡NAT,host-only模式。在宿主机器上安装eclipse进行Hadoop开发。Had转载 2013-12-15 17:53:23 · 2222 阅读 · 0 评论 -
Hadoop学习之Hadoop集群功能简单测试验证
注:本文的主要目的是为了记录自己的学习过程,也方便与大家做交流。转载请注明来自:http://blog.youkuaiyun.com/ab198604 前几天对hadoop分布式集群的安装过程进行了总结,对hadoop的集群搭建只是学习hadoop中的艰难的一步,后面还需要学习更多的知识,不知道自己能不能坚持下去,不知道后面还会遇到多少困难,不过,我想,只要努转载 2013-12-16 11:06:29 · 996 阅读 · 0 评论 -
Hadoop jps出现process information unavailable提示解决办法
AlienTech for better life!~原创 2013-12-20 21:48:35 · 9657 阅读 · 4 评论 -
Hadoop实战-初级部分 之 HDFS
第一部分:什么是HDFS Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。 HDFS是高容错性的,可以部署在低成本的硬件之上,HDFS提供高吞吐量地对应用程序数据访问,它适合大数据集的应用程序。 第二部分:HDFS架构设计HDFS 设计目标HDFS不适合做什么转载 2013-12-31 16:36:51 · 1131 阅读 · 0 评论 -
Hadoop实战-初级部分 之 Hadoop MapReduce JAVA API
第一部分:Word Count 程序讲解 •编写一个MapReduce 程序的步骤–编写一个Mapper类–编写一个Reducer类–编写一个Driver类(即Job),来将Mapper与Reducer类来进行组合。 java代码:查看复制到剪贴板打印Mapper转载 2013-12-31 16:25:50 · 2109 阅读 · 0 评论