
hadoop
蓝天的IT生涯
这个作者很懒,什么都没留下…
展开
-
MapReduce HelloWorld
MapReduce HelloWorld博客分类: Java 在开始之前,假设你已经配置好了Hadoop的环境。如果没有,可以参考http://www.linuxidc.com/Linux/2012-02/53927.htm 主要使用的软件:1:java7u252:Hadoop1.2.03:Eclipse Kepler转载 2013-07-29 09:19:00 · 1835 阅读 · 0 评论 -
Spark Standalone 以及 HDFS系统环境搭建
Hdfs环境搭建下载最新版本的Hadoop编译好的tar包:http://hadoop.apache.org/releases.html确认HDFS namenode和datanode的角色,并将namenode以及datanode的ip机器名对应关系写进每台机器的/etc/hosts文件。确认namenode可以不需要密码就一个通过ssh联通datanode结点。执行如下原创 2015-04-15 20:02:11 · 1980 阅读 · 0 评论 -
HADOOP 查看目录下数据大小的方法
shell命令: hadoop fs -count -q 目录 ps: 查看目录下总的大小原创 2014-08-27 11:20:07 · 22052 阅读 · 0 评论 -
在执行生成Hfile的MR任务的时候出现client端的OOM
在执行MR将HDFS转换为HFile的时候,出现了如下异常:14/07/09 18:02:59 INFO mapred.JobClient: map 83% reduce 0%14/07/09 18:02:59 INFO mapred.JobClient: Task Id : attempt_201401091245_59030413_m_000001_0, Status : FAILE原创 2014-07-09 18:33:42 · 1185 阅读 · 0 评论 -
hadoop作业reduce过程调优使用到的参数笔记
reduce的运行是分成三个阶段的。分别为copy->sort->reduce。由于job的每一个map都会根据reduce(n)数将数据分成map 输出结果分成n个partition,所以map的中间结果中是有可能包含每一个reduce需要处理的部分数据的。所以,为了优化reduce的执行时间,hadoop中是等job的第一个map结束后,所有的reduce就开始转载 2014-07-10 09:35:48 · 790 阅读 · 0 评论 -
将 Hadoop YARN 发扬广大
Yet Another Resource Negotiator 简介大数据不断在演变,因而它的处理框架也在不断演变。Apache Hadoop 于 2005 年推出,提供了核心的 MapReduce 处理引擎来支持大规模数据工作负载的分布式处理。7 年后的今天,Hadoop 正在经历着一次彻底检查。通过这次检查,得到了一个更加通用的 Hadoop 框架,不仅支持 MapRedu转载 2014-03-28 13:18:39 · 773 阅读 · 0 评论 -
Zookeeper容错程序模拟
本文模拟实现一个基于zookeeper怎么解决单点故障的案例。 单点故障问题,在分布式系统中是一个很有可能发生的场景,比如说在Hadoop2.x之前的HDFS的NameNode和MapReduce的JobTracker的单点故障,当然这个问题已经在Hadoop2.x中得到解决,解决的方式,大部分是基于Zookeeper来实现的。另外一个例子,在Hbase中的Hmaster的单点问题,也是使用Z转载 2014-03-09 18:13:12 · 1763 阅读 · 0 评论 -
MR-eclipse本地开发环境搭建&Hadoop学习总结
一、Hadoop伪分布式部署及eclipse开发环境搭建1.搭建虚拟机环境: 搭建在win7上的linux虚拟机,套件版本为:CentOS release 6.2 (Final).2.下载hadoop,我下载的版本是hadoop 1.1.23.下载hadoop-eclipse-plugin-1.1.2.jar 或者 在${HADOOPHOME}/contrib/目录下找到 hado原创 2014-03-09 19:07:24 · 5656 阅读 · 0 评论 -
HBase学习总结
HBase是一种构建在HDFS之上的分布式、面向列的存储系统。在需要实时读写、随机访问超大数据集时,可以使用HBase这一Hadoop应用。传统行式数据库和列式数据库的区别:传统行式数据库:数据是按行存储的。没有索引的查询使用大量IO。建立索引和物化视图需要花费大量时间和资源。面对查询的需求,数据库必须被大量膨胀才能满足性能要求。列式数据库:数据按列存储(每一列单独转载 2014-03-07 13:06:10 · 1279 阅读 · 0 评论 -
hadoop 学习笔记:mapreduce框架详解
开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而学习hdfs时候我就发现,要理解hadoop框架转载 2014-03-06 13:10:36 · 807 阅读 · 0 评论 -
Pig的使用
Pig实战1. pig简介2. 安装pig3. 实战pig4. 深入pig5. 参考资料及代码下载 . Pig简介 pig是hadoop项目的一个拓展项目, 用以简化hadoop编程(简化的程度超乎想象啊),并且提供一个更高层次抽象的数据处理能力,同时能够保持hadoop的简单和可靠性。. 安装pig 2.1 下载pig:[点击转载 2014-03-07 09:39:34 · 945 阅读 · 0 评论 -
下一代 Hadoop YARN 简介:相比于MRv1,YARN的优势
最近一段时间,经常看到有人在微博上说,“很多公司暂时用不到YARN,因为一般公司的集群规模并未像Yahoo、Facebook那样达到几千台,甚至将来几万台”。这完全是一种错误的观念,在Hadoop高速发展的时代,必须更正。实际上,上述观念只看到了YARN的扩展性(Scalability),扩展性是可用可不用的特性,中小型公司将YARN部署到小集群(按照IBM观点,集群规模小于200台的称为转载 2014-03-11 22:56:58 · 746 阅读 · 0 评论 -
CentOS下Hadoop伪分布模式安装笔记
CentOS下Hadoop伪分布模式安装笔记 一. 前言 Hadoop 伪分布式模式是在单机上模拟 Hadoop 分布式,单机上的分布式并不是真正的伪分布式,而是使用线程模拟分布式。Hadoop 本身是无法区分伪分布式和分布式的,两种配置也很相似,唯一不同的地方是伪分布式是在单机器上配置,数据节点和名字节点均是一个机器。 现在很多初学者根本不具备搭建完全分布式集群的转载 2014-03-04 13:42:22 · 710 阅读 · 0 评论 -
从hadoop框架与MapReduce模式中谈海量数据处理
从hadoop框架与MapReduce模式中谈海量数据处理前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,觉得Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:海量数据处理。 由此,最近凡是空转载 2014-03-04 20:18:20 · 708 阅读 · 0 评论 -
Bulkload 将Hdfs转换为Hfile的一个Demo
package com.taobao.bulkload.job;import java.io.IOException;import java.text.DateFormat;import java.text.SimpleDateFormat;import java.util.Calendar;import org.apache.hadoop.conf.Configuration原创 2013-10-22 19:40:04 · 1448 阅读 · 0 评论 -
YARN ResourceManager调度器的分析
YARN是Hadoop新版中的资源控制框架。本文旨在深入剖析ResourceManager的调度器,探讨三种调度器的设计侧重,最后给出一些配置建议和参数解释。本文分析基于CDH4.2.1。调度器这个部分目前还在快速变化之中。例如,CPU资源分配等特性在不就的将来就会加入。为了方便查阅源代码,原代码位置使用[类名:行号]方式表示。名词解释:ResourceManage转载 2016-07-15 14:57:54 · 1366 阅读 · 0 评论