
Hadoop
文章平均质量分 59
「已注销」
这个作者很懒,什么都没留下…
展开
-
FileSystem.getFileBlockLocations
DetailsType: New FeatureStatus: Resolved Priority: MajorResolution: Fixed Affects Version/s: None原创 2011-08-31 16:53:20 · 3051 阅读 · 0 评论 -
hadoop 源码编译
转载自:http://jbm3072.iteye.com/blog/1113827hadoop是一个分布式存储和分布式计算的框架。在日常使用hadoop时,我们会发现hadoop不能完全满足我们的需要,我们可能需要修改hadoop的源代码并重新编译、打包。下面转载 2011-09-01 15:52:23 · 10652 阅读 · 4 评论 -
hdfs namenode format (续)
看过路fsimage这个文件的存储,再看看其它三个文件的存储,其它三个文件的存储都很简单,先来看edits文件,editLog.createEditLogFile(getImageFile(sd, NameNodeFile.EDITS)); public synchro原创 2011-09-05 15:45:34 · 1103 阅读 · 0 评论 -
(未解决)hadoop问题描述---输入命令无反应
我的操作是在伪集群模式下,操作步骤:1. 输入hadoop namenode -format ,正常运行2.输入./start-all.sh,打出的log也正常3.输入hadoop fs -ls .,但是却卡了下来,长久地不执行,不知道什么原因原创 2011-09-05 10:22:59 · 3162 阅读 · 2 评论 -
HDFS的基本概念
转载:http://www.cnblogs.com/forfuture1978/archive/2010/03/14/1685351.htmlHDFS的基本概念1.1、数据块(block)HDFS(Hadoop Distributed File Sys转载 2011-09-05 15:54:51 · 886 阅读 · 0 评论 -
hadoop中的start-all.sh小看
最近刚刚在看shell编程,正好拿hadoop的几个命令练练手:先来看start-all.sh这个最简单的shell:bin=`dirname "$0"`------------$0是指第0个参数,在这里指start-all.sh本身,这里是相对路径,这条命令是获取$0所原创 2011-09-05 17:37:33 · 1178 阅读 · 0 评论 -
hadoop-config.sh小看
# resolve links - $0 may be a softlinkthis="$0" ===========================将hadoop-config.sh 文件所在的相对目录赋给thiswhile [ -h原创 2011-09-05 18:56:31 · 1666 阅读 · 0 评论 -
HDFS------block,packet,chunk的关系
在看hdfs时,经常会碰到block,packet,chunk等概念,下面做个简要介绍:block是最大的,默认为:"fs.local.block.size", 32 * 1024 * 1024=32mpacket其次, 默认为:"dfs.write.packet.siz原创 2011-09-13 18:17:00 · 3199 阅读 · 0 评论 -
HDFS------hadoop fs -put 代码执行过程
FsShell.main()--->ToolRunner.run()--->FsShell.run()--->copyFromLocal()简单地讲,这个put写过程分为两个阶段,一个阶段是通过调用DFSClient的create方法创建输出流,并开启后台线程DataStre原创 2011-09-09 14:58:31 · 4451 阅读 · 0 评论 -
namenode,datanode,client三者的关系
我们很容易知道:在hadoop系统中,master/slaves/client的对应关系是:master---namenode;slaves---datanode;client---dfsclient;那究竟是通过什么样的方式进行通信的呢,在这里从大体介绍一下:原创 2011-09-13 09:45:46 · 2834 阅读 · 0 评论 -
HDFS------hadoop fs -get命令的代码执行过程
今天我们就来看看当输入./hadoop fs -get src des 时,代码中是如何执行的。看过hadoop权威指南那本书,大家都知道当读取hdfs中的一个文件时,首先要向namenode咨询相关的数据块的信息,然后再和具体的datanode交互,将数据通过网络传过来,那原创 2011-09-08 14:10:31 · 6662 阅读 · 2 评论 -
HDFS------INode的类图
原创 2011-09-15 09:35:42 · 1392 阅读 · 0 评论 -
HDFS------hadoop namenode -format
集群搭建好了以后,通常我们会输入命令:/bin/hadoop namenode -format对hdfs进行格式化,那究竟格式化都做些什么具体的工作呢,怀着好奇心到源码里一探究竟。首先从这行命令/bin/hadoop namenode -format 可以判断出会调用Name原创 2011-09-02 14:07:13 · 5694 阅读 · 1 评论 -
HDFS------namenode中的ClientProtocol的实现
一. 先来看public LocatedBlocks getBlockLocations(String src,long offset, long length) throws IOException;这个方法:返回文件的块的位置。返回值LocatedBlocks的类图原创 2011-09-15 13:33:02 · 1362 阅读 · 0 评论 -
hdfs源码分析思路
最近在看caibinbupt的hadoop的源码分析的文章,下面对于他的分析思路以及先后顺序做个小结:1.首先前八章是介绍hdfs的RPC机制;2.从第九章开始介绍hdfs的内容: 2.1分析hdfs,包括namenode,datanode,作者先分析了data原创 2011-09-19 10:07:42 · 2075 阅读 · 0 评论 -
HDFS------datanode的初始化
在conf/start-dfs.sh里可以看到,"$bin"/hadoop-daemons.sh --config $HADOOP_CONF_DIR start datanode $dataStartOpt,这个是用来启动一个datanode的。因此和namenode一样,先原创 2011-09-07 14:07:09 · 2423 阅读 · 0 评论 -
hadoop rpc机制 && 将avro引入hadoop rpc机制初探
转载:http://www.tbdata.org/archives/14131 RPCRPC(Remote Procedure Call)——远程过程调用,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。2 hadoop.i转载 2011-09-20 16:35:59 · 1426 阅读 · 0 评论 -
hadoop------RPC的Client
先上类图:Call封装了一次方法调用,Connection封装了一个连接,一个连接可以有多个Call。这里以datanode和namenode通信为例子,来具体看一下rpc这个过程是如何调用的。首先DataNode这个类有一个名字为namenode的成员变原创 2011-09-20 17:31:31 · 842 阅读 · 0 评论 -
hadoop命令大全
1、列出所有Hadoop Shell支持的命令 $ bin/hadoop fs -help2、显示关于某个命令的详细信息 $ bin/hadoop fs -help command-name3、用户可使用以下命令在指定路径下查看历史日志汇总 $ bin/原创 2011-08-23 13:45:01 · 1758 阅读 · 0 评论 -
hadoop经典书籍
转载自 http://www.hadoopor.com/thread-970-1-1.htmlHadoop 官方网站 Hadoop - ClouderaHadoop - Yahoo!Hadoop - WikiDoug Cutting - Wi转载 2011-08-23 15:45:33 · 11099 阅读 · 3 评论 -
hadoop入门
Hadoop入门http://varyall.iteye.com/blog/740101转载 2011-08-05 11:12:59 · 673 阅读 · 1 评论 -
hadoop基本操作命令
http://www.cnblogs.com/gpcuster/archive/2010/06/04/1751538.html转载 2011-07-20 16:23:37 · 693 阅读 · 0 评论 -
hadoop的RPC分析
http://bbs.hadoopor.com/thread-329-1-2.html转载 2011-08-23 19:36:49 · 908 阅读 · 0 评论 -
hadoop的RPC
最近在看hadoop的RPC的代码:参考资料:1.http://bbs.hadoopor.com/thread-329-1-1.html hadoop RPC详细分析 2.http://caibinbupt.iteye.com/blog hadoop原创 2011-08-24 13:22:35 · 812 阅读 · 0 评论 -
HDFS------namenode中的DatanodeProtocol实现
DatanodeBlockInfo:这个类被datanode用来保存一个block的元数据映射。它有三个属性,file指的是这个block所对应的文件名,volume指的是存放这个block的卷,detached是snapshot和current之间的硬链接状态。原创 2011-09-16 09:28:46 · 703 阅读 · 0 评论 -
几个hadoop分析方面的博客
http://coderplay.iteye.com coderplay---taobaohttp://caibinbupt.iteye.com caibin原创 2011-09-22 09:32:35 · 829 阅读 · 0 评论 -
hadoop的mapred工作原理---源码分析
刚接触hadoop,在看权威指南第六章--hadoop的mapred工作原理,下面就结合代码具体来看下:首先客户端调用 JobClient.runJob(myJob)方法来运行job,代码如下: public static RunningJob runJob(JobC原创 2011-08-24 14:18:32 · 1306 阅读 · 0 评论 -
MapReduce源码分析总结
转载:http://blog.youkuaiyun.com/heyutao007/article/details/5725379参考: 1 caibinbupt的源代码分析http://caibinbupt.javaeye.com/ 2 coder转载 2011-08-25 11:31:24 · 758 阅读 · 0 评论 -
Map-Reduce的过程解析
转载:http://www.cnblogs.com/forfuture1978/archive/2010/11/19/1882268.html一、客户端Map-Reduce的过程首先是由客户端提交一个任务开始的。提交任务主要是通过JobClient.runJo转载 2011-08-25 12:57:09 · 758 阅读 · 0 评论 -
hadoop------RPC的Server
这里以namenode为例,当namenode启动时,会作为server初始化。先看其序列图:下图是Server的类图:先来看Server.Call,它共有五个成员,id是从客户端传过来的call的id,param是客户端传过来的参数,timest原创 2011-09-21 10:55:21 · 977 阅读 · 0 评论 -
ProtoBuf是什么
protobuf是google提供的一个开源序列化框架,类似于XML,JSON这样的数据表示语言,其最大的特点是基于二进制,因此比传统的XML表示高效短小得多。虽然是二进制数据格式,但并没有因此变得复杂,开发人员通过按照一定的语法定义结构化的消息格式,然后送给命令行工具,工具将自原创 2011-09-23 19:18:56 · 1149 阅读 · 0 评论 -
hadoop集群启动
转载:http://yymmiinngg.iteye.com/blog/706699Hadoop集群安装 首先我们统一一下定义,在这里所提到的Hadoop是指Hadoop Common,主要提供DFS(分布式文件存储)与Map/Reduce的核心功能。 Had转载 2011-08-29 08:51:34 · 3774 阅读 · 0 评论 -
hadoop源码编译错误
我在源码根目录下执行:mvn test -DskipTests结果报错:[INFO] Apache Hadoop Project POM ......................... SUCCESS [8.472s][INFO] Apache H原创 2011-09-23 19:18:32 · 2637 阅读 · 1 评论 -
hadoop权威指南中的ncdc数据下载地址及命令
如题:给出hadoop权威指南--NCDC1929-2011数据下载地址ftp://ftp.ncdc.noaa.gov/pub/data/gsod/命令:The data are available via:1) WWW -- http:/转载 2011-08-29 10:19:36 · 3738 阅读 · 0 评论 -
google论文--mapred中文翻译
转载自:mapred: http://blog.youkuaiyun.com/active1001/article/details/1675920 GFS:http://blog.youkuaiyun.com/xuleicsu/archive/2005/11/10/526386.aspx转载 2011-08-30 11:01:32 · 959 阅读 · 0 评论 -
用 Linux 和 Apache Hadoop 进行云计算
转载自: http://cloud.youkuaiyun.com/a/20100621/267724.html?1290931308 IBM、Google、VMWare 和 Amazon 等公司已经开始提供云计算产品和战略。本文讲解如何使用 Apache Hadoop 构建一转载 2011-08-30 10:36:54 · 683 阅读 · 0 评论 -
org.apache.hadoop.mapreduce.lib.input包分析
先上类图:FileInputFormat中比较重要的方法:listStatus:List input directories.getSplits:Generate the list of files and make them into FileSpl原创 2011-09-26 14:22:02 · 1122 阅读 · 0 评论 -
hadoop--bug
刚刚搭建了立一个namenode,一个datanode的集群,format节点成功,并且start-all成功,但是当我运行$ bin/hadoop fs -mkdir input$ bin/hadoop fs -put conf/core-site.xml inpu原创 2011-08-29 09:50:28 · 590 阅读 · 0 评论 -
在ubuntu上安装hadoop
转载自: http://cloud.youkuaiyun.com/a/20100901/278948.html?1290931484 在装Hadoop之前首先需要: 1.java1.6.x 最好是sun的,1.5.x也可以 2.ssh 安装ssh转载 2011-08-30 10:24:16 · 718 阅读 · 0 评论 -
Hadoop关于处理大量小文件的问题和解决方法
转载自: http://cloud.youkuaiyun.com/a/20101122/282301.html?1290758216 小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。如果在HDFS中存储小文件,那么在HDFS中肯定会含有许许转载 2011-08-30 10:27:12 · 1133 阅读 · 0 评论