
hadoop
文章平均质量分 62
泰格数据
我们不生产数据,我们只是数据的搬运工
我们不仅是数据搬运工,我们也是数据价值创造者
展开
-
hadoop完全分布式集群安装
注:本文转载来自:http://blog.youkuaiyun.com/ab198604/article/details/8250461 要想深入的学习hadoop数据分析技术,首要的任务是必须要将hadoop集群环境搭建起来,可以将hadoop简化地想象成一个小软件,通过在各个物理节点上安装这个小软件,然后将其运行起来,就是一个hadoop分布式集群了。说来简单,但是应该转载 2016-03-11 09:03:14 · 467 阅读 · 0 评论 -
Hadoop元数据namenode的高可用原理
一、什么是FSImage和EditsLog 我们知道HDFS是一个分布式文件存储系统,文件分布式存储在多个DataNode节点上。一个文件存储在哪些DataNode节点的哪些位置的元数据信息(metadata)由NameNode节点来处理。随着存储文件的增多,NameNode上存储的信息也会越来越多。那么HDFS是如何及时更新这些metadata的呢? 在HDFS中主要是通过两个组件转载 2016-10-26 11:16:52 · 2094 阅读 · 0 评论 -
HADOOP自带测试类介绍及使用
一. Hadoop基准测试Hadoop自带了几个基准测试,被打包在几个jar包中。本文主要是cloudera版本测试[hsu@server01 ~]$ ls /opt/cloudera/parcels/CDH-5.2.0-1.cdh5.2.0.p0.36/lib/hadoop-0.20-mapreduce/hadoop* | egrep "examples|test"/opt/clou原创 2016-08-14 14:33:45 · 6512 阅读 · 0 评论 -
动态添加HDFS节点
本文主要从基础准备,添加DataNode和添加NodeManager三个部分详细说明在Hadoop2.6.0环境下,如何动态新增节点到集群中。基础准备在基础准备部分,主要是设置hadoop运行的系统环境修改系统hostname(通过hostname和/etc/sysconfig/network进行修改)修改hosts文件,将集群所有节点hosts配置进去(集原创 2016-08-14 11:28:14 · 2543 阅读 · 0 评论 -
Hadoop 常见错误及解决办法
修改hdfs-core.xml 增加:dfs.permissionsfalseIf "true", enable permission checking in HDFS.If "false", permission checking is turned off,but all other behavior is unchanged.Switching from on原创 2016-03-04 22:57:11 · 720 阅读 · 0 评论 -
MR代码实例-wordcount
package com.tiger.test;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hado原创 2016-03-12 22:18:35 · 1901 阅读 · 0 评论 -
hadoop0.20.2 eclipse插件安装指南
配置前提: 已完成hadoop0.20.2安装,并成功启动hadoop,可以是虚拟机也可以是远程机。其他版本的hadoop请自己访问度娘另寻。 如果没有安装好hadoop0.20.2,参考我的另一篇文章:虚拟机集群安装http://blog.youkuaiyun.com/xiefu5hh/article/details/50853060 重要说明: eclipse插件安装是一原创 2016-03-19 10:47:49 · 743 阅读 · 1 评论 -
HADOOP的本地库(NATIVE LIBRARIES)介绍
Hadoop是使用Java语言开发的,但是有一些需求和操作并不适合使用java,所以就引入了本地库(Native Libraries)的概念,通过本地库,Hadoop可以更加高效地执行某一些操作。 目前在Hadoop中,本地库应用在文件的压缩上面: zlib gzip 在使用这两种压缩方式的时候,Hadoop默认会从$HADOOP_HOME/lib/native/Linux-*目录中加载本地库原创 2016-08-05 15:19:33 · 822 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
原文评论不错:http://langyu.iteye.com/blog/992916?page=3#comments/** * author : 冶秀刚 * mail : dennyy99@gmail.com */ Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我转载 2016-07-19 11:36:14 · 223 阅读 · 0 评论 -
Yarn简单介绍及内存配置
在这篇博客中,主要介绍了Yarn对MRv1的改进,以及Yarn简单的内存配置和Yarn的资源抽象container。我么知道MRv1存在的主要问题是:在运行时,JobTracker既负责资源管理又负责任务调度,这导致了它的扩展性、资源利用率低等问题。之所以存在这样的问题,是与其最初的设计有关,如下图:从上图可以看到,MRv1是围绕着MapReduce进行,并没有过多地考虑以后出现的转载 2016-07-19 10:27:41 · 277 阅读 · 0 评论 -
tez 编译详解
Tez 0.7和0.8编译转载2016-03-31 00:23:39标签:tezhadoop在tez编译过程中会遇到各种各样的问题,如果你是编译0.5的,因为0.5中没有tez-ui所以编译过程中基本没有什么问题,先准备环境1、linux 环境,我的是centos6.4 32位的2、可编译的maven环境 我这边用得maven3.3.9的转载 2017-11-19 21:53:27 · 2899 阅读 · 2 评论