
一步一步学习hadoop2.2
zhuyu4839
这个作者很懒,什么都没留下…
展开
-
hadoop's ecosystem
一. Hadoop早期生态系统的模块:1. HDFS --> Hadoop Distribted File System: Hadoop的文件系统,是一个能在多个cluster()上面对海量数据操作,并且数据只需写一次.2. MapReduce(MP): Hadoop运行核心,一种分布式(平行数据处理)的编程模式,MP将任务分段处理,被分配了Map作业的worker,开始读取对应分片的输原创 2014-03-11 22:06:47 · 816 阅读 · 0 评论 -
hadoop HDFS杂记
1. HDFS使用ChecksumFileSystem或它的子类实例时,文件交换使用crc校验码;2.HDFS支持压缩格式:deflate gzip bzip2 lzo snappy格式:java 访问:public static void main(String[] args) throws Exception {String codecClassname = args[0];原创 2014-03-23 00:31:17 · 619 阅读 · 0 评论 -
Problem accessing /nn_browsedfscontent.jsp
When run (a single node hadoop) hadoop : http://127.0.0.1:50070, it show a error in browser:HTTP ERROR 500Problem accessing /nn_browsedfscontent.jsp. Reason: Can't browse the DFS原创 2014-03-17 23:17:34 · 1364 阅读 · 0 评论 -
hadoop hdfs2 Basic Filesystem Operations
1. create path in hadoop hdfsConfigeration conf = new Configeration();FileSystem hdfs = FileSystem.get(conf);Path path = new Path("pathName");hdfs.create(path);hdfs.close();2. create p原创 2014-03-19 00:15:58 · 970 阅读 · 0 评论 -
hadoop2.2 MapReduce and yarn(二) MapReduce in MR v2 API
MapReduce1. 首先了解MapReduce的功能:一个分布式系统(Distribute System)是用来处理大计算量的数据,即当计算量在一台计算机无法处理的情况下,就通过把整个计算过程分成很多个小的计算块,通过Master分派给分布式系统中集群的Cluster,Cluster计算完成后结果返回给Master,如此迭代;在Hadoop模型中MapReduce即为实现.MapRed原创 2014-03-29 08:13:01 · 899 阅读 · 0 评论 -
hadoop2.2 MapReduce and yarn(一)
1. MapReduce前后框架对比:2. MapReduce主要操作对象Driver:是一个很重要的内容,主要负责MapReduce job的初始化,它定义了job的配置 输入输出格式 使用的combiner和partitioner.Context:drivers mappers reducers...的上下文环境.InputData:InputFormat:原创 2014-03-23 01:11:36 · 645 阅读 · 0 评论 -
yarn & hadoop2.2 与 HBase with zookeeper环境集成
前面的是对hadoop整个系统的大致认识,今天就为学习hadoop搭建环境.首先介绍为什么要使用这样的集成环境:http://img.blog.youkuaiyun.com/20140307204651015?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvemh1eXU0ODM5/font/5a6L5L2T/fontsize/400/fill/I0JBQkF原创 2014-03-17 22:09:16 · 1846 阅读 · 0 评论 -
分布式安全--YARN & HDFS2 安装和配置Kerberos
设置hadoopsecuritycore-site.xml hadoop.security.authentication kerberos hadoop.security.authorization true hadoop.secur转载 2014-03-17 22:03:46 · 991 阅读 · 0 评论 -
HBase
1. HBase 环境搭建(略).2. 高效的Hbase架构:原创 2014-03-15 03:03:01 · 757 阅读 · 0 评论 -
Hadoop ecosystem HDFS and HDFS2
1. HDFS的思想来源GFS(Google File System),是一个块结构的文件系统,用于处理海量数据处理,并且允许读取和数据本地处理.2. HDFS允许数据读写附加删除但是不允许数据更新操作.3. HDFS把数据分成若干块,存储在DataNode上,DataNode在本地分散的文件中存储HDFS数据块.4. NameNode: 实质就是一个master server,用于管原创 2014-03-12 21:50:33 · 1416 阅读 · 0 评论 -
Problem accessing /nn_browsedfscontent.jsp
When run (a single node hadoop) hadoop : http://127.0.0.1:50070, it show a error in browser:HTTP ERROR 500Problem accessing /nn_browsedfscontent.jsp. Reason: Can't browse the DFS since t原创 2014-03-07 21:13:52 · 2842 阅读 · 4 评论 -
Installing single node Hadoop 2.2.0 on Ubuntu
artic from:http://bigdatahandler.com/2013/11/02/installing-single-node-hadoop-2-2-0-on-ubuntu/Please find the complete step by step process for installing Hadoop 2.2.0 stable version on Ubuntu a转载 2014-03-07 20:28:57 · 1266 阅读 · 0 评论 -
Hadoop Yarn 框架 Demo 变化
场景介绍:Weblogic 应用服务器日志分析了解了 hadoop 新的 Yarn 框架的架构和思路后,我们用一个 Demo 示例来检验新 Yarn 框架下 Map-Reduce 程序的开发部署。我们考虑如下应用场景:用户的生产系统由多台 Weblogic 应用服务器组成,每天需要每台对应用服务器的日志内容进行检查,统计其日志级别和日志模块的总数。WebLogic 的日志范转载 2014-03-11 22:08:40 · 799 阅读 · 0 评论 -
hadoop2.2.0 单节点安装
以下两个软件是在Linux下必须安装的:ssh rsync安装步骤:1)将下载的Hadoop安装包放到指定的目录,比如放到您当前用户的home目录。执行以下命令解压安装包:tar xzf hadoop-2.2.0.tar.gz2)编辑home目录下的.bashrc,添加以下项:# add for hadoop 2.2export转载 2014-03-07 00:42:02 · 719 阅读 · 0 评论 -
MapReduce 2.0 in Apache Hadoop 0.23
This blog provides developers with architectural details of the new MapReduce design. Apache Hadoop 0.23 has major improvements over previous releases. Here are a few highlights on the MapReduce f转载 2014-03-23 18:36:43 · 871 阅读 · 0 评论