
Hadoop
雨落
学习云计算、web开发、分布式数据库、android开发!
展开
-
HBase 之TableOutputFormat
MapReducer的输出导入到HBase有多种方式可以实现, TableOutputFormat就是其中一种.1. hbase建表. hbase建表hbase(main):132:0* create 't1','f1' 0 row(s) in 1.4890 seconds hbase(main):133:0> scan 't1' ROW转载 2011-11-18 11:38:27 · 724 阅读 · 0 评论 -
Hbse源码分析-HFileOutputFormat
开始学习使用Hbase,不知道对不对 但是先从源码开始读起吧....hadoop mr 输出需要导入hbase的话最好先输出成HFile格式, 再导入到HBase,因为HFile是HBase的内部存对应的源码为:/** * Copyright 2009 The Apache Software Foundation * * Licensed to the Apache So原创 2011-11-18 11:13:00 · 4462 阅读 · 0 评论 -
SQL与MapReduce 传统与现代的结合
转自:http://cloud.youkuaiyun.com/a/20111117/307657.htmlMapReduce系统获得成功的原因之一是它为编写需要大规模并行处理的代码提供了简单的编程模式。它受到了Lisp的函数编程特性和其他函数式语言的启发。MapReduce和云计算非常相配。MapReduce的关键特点是它能够对开发人员隐藏操作并行语义 — 并行编程的具体工作方式。转载 2011-11-18 09:21:33 · 1061 阅读 · 0 评论 -
HDFS操作之上传--PutToHDFS(从local上传资料到hdfs)
转自:http://freewxy.iteye.com/blog/1102759在local 端创建文件: /home/hadoop/tmp/program_get_input 程序执行完毕后检查hdfs 有无该文件: /user/hadoop/program_put_inputpackage PutToHDFS;import java.io.IOException;转载 2011-11-16 16:36:42 · 491 阅读 · 0 评论 -
HADOOP报错Incompatible namespaceIDs
转自:http://blog.youkuaiyun.com/wh62592855/article/details/5752199今早一来,突然发现使用-put命令往HDFS里传数据传不上去了,抱一大堆错误,然后我使用bin/hadoop dfsadmin -report查看系转载 2011-10-18 18:57:04 · 711 阅读 · 0 评论 -
MySQL、MongoDB还是Hadoop-记录
本文是根据一个谷歌论坛上的话题的讨论,想了解一下mongoDB、hadoop、mysql的相关对比,以及如何合理的使用。问题如下:这是一个mongodb-user的google group上的讨论。LZ是一个广告公司的技术人员,需要对500M行(5亿行)的log信原创 2011-09-26 17:41:17 · 3905 阅读 · 0 评论 -
使用dumbo开发hadoop streaming程序
转自:http://www.cnblogs.com/flying5/archive/2011/09/07/2169574.html1. dumbo的官网:https://github.com/klbostee/dumbo/ wiki: https://g转载 2011-09-23 19:49:23 · 1404 阅读 · 1 评论 -
使用python开发hadoop streaming程序及hadoop python网页抓取例子
转自:http://www.cnblogs.com/flying5/archive/2011/08/31/2161364.htmlHadoop streaming是Hadoop的一个工具,它帮助用户创建和运行一类特殊的map/reduce作业,这些特殊的map/reduce作转载 2011-09-23 16:52:11 · 1744 阅读 · 1 评论 -
Hadoop状态页面的Browse the filesystem链接无效的问题
转自:http://yymmiinngg.iteye.com/blog/706909NameNode '192.168.1.164:9000'Started:Tue Jul 06 14:37:10 CST 2010Versi转载 2011-08-25 14:14:28 · 747 阅读 · 0 评论 -
Hadoop源代码分析(IFile)
转自:http://caibinbupt.iteye.com/blog/394369 Mapper的输出,在发送到Reducer前是存放在本地文件系统的,IFile提供了对Mapper输出的管理。我们已经知道,Mapper的输出是对,IFile以记录的形式存放了这些转载 2011-09-15 18:19:07 · 432 阅读 · 0 评论 -
hadoop解决一个图相关的题
本题是来自于:http://caibinbupt.iteye.com/blog/354316题目是这样的:有向图,输入是所有的边,如下图的输入是,,,,,,和,输出是图中所有这样三角形>,它的边是,和。下面的图输出是>,>。用MapReduce做,不要用传统方法啦原创 2011-09-14 20:57:29 · 858 阅读 · 0 评论 -
自定义hadoop map/reduce输入文件切割InputFormat 更改输入value的分隔符
本文转载自:http://hi.baidu.com/lzpsky/blog/item/99d58738b08a68e7b311c70d.html hadoop会对原始输入文件进行文件切割,然后把每个split传入mapper程序中进行处理,FileInputFormat是所有以文件作 为数据源的InputFormat实现的基类,FileInputFormat保存作为job输入原创 2011-11-09 16:25:59 · 1440 阅读 · 0 评论 -
Hadoop自定义RecordReader
系统默认的LineRecordReader是按照每行的偏移量做为map输出时的key值,每行的内容作为map的value值,默认的分隔符是回车和换行。现在要更改map对应的输入的值,key对应的文件的路径(或者是文件名),value对应的是文件的内容(content)。那么我们需要重写InputFormat和RecordReader,因为RecordReader是在InputFormat中原创 2011-11-10 10:52:27 · 5748 阅读 · 4 评论 -
HDFS小文件问题及解决方案
转自:http://dongxicheng.org/mapreduce/hdfs-small-files-solution/1、 概述小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 00转载 2012-08-21 10:55:03 · 1217 阅读 · 0 评论 -
Yahoo持续的Pig/Hadoop(MapReduce)工作流
最近在Sigmod2011年大会上,Yahoo公司publish了一篇文章叫做Nova:Continuous Pig/Hadoop Workflows.由于小弟之前一直关注MapReduce工作流的优化,而且毕业开题的方向也和这篇文章的Motivation有些相近,就抽时间研读了一下。Nova这篇文章是Christopher在Yahoo研究院做的一项工作,Chris长期钻研MapReduc转载 2012-06-04 22:14:57 · 1043 阅读 · 0 评论 -
Hbase技术介绍
转自:http://www.searchtb.com/2011/01/understanding-hbase.html这个网站还不错 有很多淘宝的技术文章,建议大家多看看HBase简介HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。转载 2012-02-24 17:06:05 · 576 阅读 · 0 评论 -
Hadoop平台优化综述
1. 概述随着企业要处理的数据量越来越大,MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现,由于其良好的扩展性和容错性,已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台,虽然其应用价值已得到大家认可,但仍存在很多问题,以下是主要几个:(1) Namenode/jobtracker单点故障(一般使用zookeeper来做转载 2012-01-19 17:51:11 · 1080 阅读 · 0 评论 -
HDFS小文件问题及解决方案
参考:http://dongxicheng.org/mapreduce/hdfs-small-files-solution/HDFS上每个文件都要在namenode上建立一个索引,这个索引的大小约为150byte,这样当小文件比较多的时候,就会产生很多的索引文件,一方面会大量占用namenode的内存空间,另一方面就是索引文件过大是的索引速度变慢,解决的方式(1)Hadoop本身提供了转载 2012-01-19 15:56:15 · 560 阅读 · 0 评论 -
Hadoop Streaming 编程
1、概述Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer)$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-stre转载 2012-01-18 15:31:04 · 541 阅读 · 0 评论 -
Hadoop pipes编程
1. Hadoop pipes编程介绍Hadoop pipes允许C++程序员编写mapreduce程序,它允许用户混用C++和Java的RecordReader, Mapper, Partitioner,Rducer和RecordWriter等五个组件。关于Hadoop pipes的设计思想,可参见我这篇文章:Hadoop Pipes设计原理。本文介绍了Hadoop pipes编程的基本方法原创 2012-01-19 11:13:08 · 778 阅读 · 0 评论 -
Hadoop中shuffle阶段流程分析
转自:http://dongxicheng.org/mapreduce/hadoop-shuffle-phase/宏观上,Hadoop每个作业要经历两个阶段:Map phase和reduce phase。对于Map phase,又主要包含四个子阶段:从磁盘上读数据-》执行map函数-》combine结果-》将结果写到本地磁盘上;对于reduce phase,同样包含四个子阶段:从各个m转载 2012-01-16 20:06:13 · 614 阅读 · 0 评论 -
下一代Apache Hadoop MapReduce框架的架构
背景随着集群规模和负载增加,MapReduce JobTracker在内存消耗,线程模型和扩展性/可靠性/性能方面暴露出了缺点,为此需要对它进行大整修。需求当我们对Hadoop MapReduce框架进行改进时,需要时刻谨记的一个重要原则是用户的需求。近几年来,从Hadoop用户那里总结出MapReduce框架当前最紧迫的需求有:(1)可靠性(Reliabi转载 2012-01-16 20:51:46 · 763 阅读 · 0 评论 -
Hadoop 文件输入和文件输出
本文完成对hadoop输入、输出文件方式的控制,完成的功能如下:1、改写map读取数据的格式:默认的----------->变为2、改写输出的格式,输出文件时每个输入文件对应一个输出文件,输出文件的名字跟输入文件名字相同。直接上代码:coAuInputFormatpackage an.hadoop.code.audit;/** * The function of th原创 2011-11-13 17:56:16 · 2862 阅读 · 2 评论 -
Hadoop 源码解析之-TextOutputFormat
因为需要自定义实现输出文件的格式,现在来分析一下TextOutputFormat的源码;源码如下,注释会直接放在源码之中package org.apache.hadoop.mapreduce.lib.output;import java.io.DataOutputStream;import java.io.IOException;import java.io.Unsuppor原创 2011-11-10 16:25:52 · 1786 阅读 · 0 评论 -
Hadoop 自定义InputFormat实现自定义Split
上一篇文章中提到了如何进行RecordReader的重写,本篇文章就是来实现如何实现自定义split的大小要解决的需求:(1)一个文本中每一行都记录了一个文件的路径,(2)要求处理路径对应的文件,但是因为文件量比较大,所以想进行分布式处理(3)所以就对输入的文档进行预处理,读取前N行做为一个splits,但是没有实现,因为重写FileSplit不是太容易实现,就偷懒直接定义一个sp原创 2011-11-10 15:22:26 · 3424 阅读 · 1 评论 -
hadoop之wordcount分析
今天花了n久时间才把hadoop安装配置成功,4台ubuntu系统。 这篇文章其实比较白白...wordcount是比较简单的,只是担心如果最近这段时间不使用hadoop的话可能会忘记怎么回事。好了,闲话少说,直接上代码!代码如下: package com.f原创 2011-08-17 19:17:35 · 2270 阅读 · 0 评论 -
Hadoop Shell命令
FS Shell 调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,s原创 2011-08-16 16:55:30 · 538 阅读 · 0 评论 -
MapReduce概述
转自:http://www.cnblogs.com/forfuture1978/archive/2010/11/19/1882279.html特别好的mapreduce分析blog!一 MapReduce概述二 MapReduce工作原理Map-Red转载 2011-09-09 15:55:55 · 675 阅读 · 0 评论 -
从零开始mapreduce学习总结
记录在学习mapreduce过程中的心得体会!关于hadoop的安装配置这里就不一一介绍了,因为网上各种很好的文章都已经有了。下面就根据一个计算数据中每年天气的最高温度来做个例子:1、Map-Reduce的逻辑过程假设我们需要处理一批有关天原创 2011-09-08 16:14:41 · 923 阅读 · 0 评论 -
Mapreduce 计算TF
最近在学习mapreduce编程方面的知识,刚开始学习,所以障碍感觉还是有很多的。有不少地方不明白,看来还是要好好的看一下mapreduce的实现机制,以及提供的函数接口的功能是什么。package an.hadoop.tf;//计算文件的TF值 import java原创 2011-09-08 14:12:27 · 581 阅读 · 0 评论 -
Hadoop学习总结之四:Map-Reduce的过程解析
转自:http://www.cnblogs.com/forfuture1978/archive/2010/11/19/1882268.html一个相当不错的文章,下面用红色部分标识出自己的笔记吧 算是一、客户端Map-Reduce的过程首先是由客户端提转载 2011-09-08 18:36:21 · 594 阅读 · 0 评论 -
MapReduce源码分析总结
转者注:本来想在Hadoop学习总结系列详细解析HDFS以及Map-Reduce的,然而查找资料的时候,发现了这篇文章,并且发现caibinbupt已经对Hadoop的源代码已经进行了详细的分析,推荐大家阅读。转自http://blog.youkuaiyun.com/HEYUTAO0转载 2011-09-07 16:39:21 · 397 阅读 · 0 评论 -
Hadoop学习总结之三:Map-Reduce入门
转自:http://www.cnblogs.com/forfuture1978/archive/2010/11/14/1877086.html这个博客里面有不少mapreduce方面总结的不错的文章,建议大家去看看!1、Map-Reduce的逻辑过程转载 2011-09-07 16:40:59 · 685 阅读 · 0 评论 -
基于 MongoDB 分布式存储进行 MapReduce 并行查询
<br />转自:http://www.cnblogs.com/daizhj/archive/2010/09/09/1822264.html<br /> <br />之前的文章中介绍了如何基于Mongodb进行关系型数据的分布式存储,有了存储就会牵扯到查询。虽然用普通的方式也可以进行查询,但今天要介绍的是如何使用MONGODB中提供的MapReduce功能进行查询。<br />有关MongoDb的MapReduce之前我写过一篇文章 Mongodb Mapreduce 初窥,<br />今天介绍如何基于sh转载 2011-05-04 17:13:00 · 705 阅读 · 0 评论 -
Hadoop示例程序WordCount详解
<br />转自:http://www.iteye.com/topic/606962<br /> http://radarradar.iteye.com/blog/289247<br /> <br /> 最近在学习云计算,研究Haddop框架,费了一整天时间将Hadoop在Linux下完全运行起来,看到官方的map-reduce的demo程序WordCount,仔细研究了一下,算做入门了。<br /> 其实WordCount并不难,只是一下子接触到了很多的API,有一些陌生,还有就是很传统的开发相比,转载 2011-04-21 17:09:00 · 737 阅读 · 0 评论 -
Hadoop单机环境配置 ubuntu10.04
<br />转自:http://www.cnblogs.com/ventlam/archive/2010/11/24/hadoop.html<br /> <br />关于Hbase的介绍,可以参见http://wiki.apache.org/hadoop/Hbase与http://en.wikipedia.org/wiki/HBase。本文主要介绍在Ubuntu10.04环境下安装配置单机版原生的HBase。在网络上找到的文章要么语焉不详,要么ungeliable.于是记录一下自己的安装配置过程,做个STE转载 2011-04-21 13:22:00 · 1148 阅读 · 0 评论 -
Windows下基于Eclipse的Hadoop开发环境完全配置(一)
<br />转自:http://blog.youkuaiyun.com/yanical/archive/2009/08/23/4474830.aspx<br /> <br />网上搜了一些中文的,总是只有一小部分,对于我们这些菜鸟来说,根本没发用,更可恶的是,搜到的内容都是一样的,哎,抄来抄去,估计都没试过到底能不能用就贴上去了。<br />后来找了一个英文的:http://ebiquity.umbc.edu/Tutorials/Hadoop/00%20-%20Intro.html 非常的全面,一步一步的教,我这翻译一转载 2011-04-19 18:42:00 · 379 阅读 · 0 评论 -
ubuntu-10.10平台搭建hadoop-0.20.2分
<br />转自 http://androidssh.iteye.com/blog/810593<br /> <br />实验平台:Ubuntu 10.10,Hadoop0.20.2,JDK1.6<br /> <br />step 1. ssh的安装设置<br />由于Hadoop用ssh 通信,因此先进行免密码登录设定, <br />root$ apt-get install ssh <br />root$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa<br />roo转载 2011-04-20 16:17:00 · 1329 阅读 · 0 评论 -
Hadoop 学习总结之一:HDFS简介
<br />一、HDFS的基本概念 1.1、数据块(block) HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。 不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。 1.2、元数据节点(Namenode)和数据节点(datanode) 元数据节点用来管理文件系统的命名空间 其将所有的文件和文件夹的元数据保存在一个文件系统转载 2011-04-14 10:32:00 · 435 阅读 · 0 评论 -
Hadoop 学习总结之一:HDFS简介
转自:http://www.cnblogs.com/forfuture1978/archive/2010/03/14/1685351.html另外还有后续的集中对HDFS的分析的很好的文章,推荐学习啊!Hadoop的一套学习教程算是一、HDFS的基本概念1转载 2011-09-09 15:59:58 · 420 阅读 · 0 评论