
hadoop
文章平均质量分 80
bupt041137
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
如何在一个hadoop集群新增一些机器而不重启
coderplay,在http://coderplay.iteye.com/blog/290767中介绍了怎样hadoop集群中安全的减少一些机器我在FAQ中找到了如何在集群中增加机器,而不需要重启集群操作如下:首先,把新节点的 IP或主机名 加入主节点(master)的 conf/slaves 文件。 然后登录新的从节点,执行以下命令: $ cd path/to/hado...2009-03-17 11:05:05 · 272 阅读 · 0 评论 -
DFSClient Packet dfs.write.packet.size
HBase 里面调用DFSOutputStream的方法常用的是:write、sync write会往当前Packet里面写数据,sync会强制生成一个Packet。在DFSClient Packet里面每次都会new 一个 big byte array,size 是65557(more than 64K,data+checksum+head),由于sync会强制生成Packet,对于小k...原创 2012-07-30 20:01:30 · 249 阅读 · 0 评论 -
cdh3u0的jetty导致Error Reading IndexFile
在36个机器上面跑一个大作业,8千多个map,2w多个reduce,跑reduce的时候经常会出现如下问题: Map output lost, rescheduling: getMapOutput(attempt_201204130934_0012_m_000022_0,5416) failed :java.io.IOException: Error Reading IndexF...原创 2012-04-13 20:21:47 · 276 阅读 · 0 评论 -
HBase如何从Hadoop读取数据,DFSInputStream
HDFS Client的读取流是从DFSInputStream来获得的,外层做了不少包装。从DFSInputStream读取数据有两种方式:(1)seek(long targetPos) + read(byte buf[], int off, int len)(2)read(long position, byte[] buffer, int offset, int length) ...原创 2012-08-08 15:41:46 · 768 阅读 · 0 评论 -
java.net.SocketTimeoutException: 480000 millis timeout hdfs
hdfs集群出现SocketTimeoutException,但是原因不得而知,社区不少issue都提到过,但是就是不懂具体原因。https://issues.apache.org/jira/browse/HDFS-693https://issues.apache.org/jira/browse/HDFS-770https://issues.apache.org/jira/brow...原创 2012-08-13 16:45:34 · 1153 阅读 · 0 评论 -
HDFS HBase NIO相关知识
HDFS的NIO有一些相关的知识偶尔需要注意下:(1) 使用了堆外内存Control direct memory buffer consumption by HBaseClienthttps://issues.apache.org/jira/browse/HBASE-4956 standard hbase client, asynchbase client, netty and...原创 2012-09-26 18:29:33 · 270 阅读 · 0 评论 -
hbase jmx
conf/hbase-env.sh 里面配了 JMX后就可以用 jconsole远程连到regionserver上面去看进程的metrics。 # Uncomment and adjust to enable JMX exporting# See jmxremote.password and jmxremote.access in $JRE_HOME/lib/management to...原创 2013-12-11 20:42:19 · 456 阅读 · 0 评论 -
hdfs 升级,cdh3 升级 cdh4
Step 1: 做下saveNamespace操作,停掉集群,并备份下 HDFS 的 Metadata 1.1 让namenode进入safe mode状态 $ bin/hadoop dfsadmin -safemode enter 1.2 执行saveNamespace操作 $ bin/hadoop dfsadmin -saveNamespace 1.3 stop 集群 ...原创 2013-08-05 18:09:05 · 306 阅读 · 0 评论 -
cdh4 vs cdh3 client处理DataNode异常的不同
cdh4在处理pipeline中的错误时,逻辑上与原先不一样。 cdh3在处理pipeline的错误时,假设当前pipeline有3个datanode,如果一个有问题,那么通过移除掉坏的datanode,重新建立只有2个datanode的pipeline,然后接着往这两个节点的pipeline写,直到结束。 cdh4默认处理时不一样,如果当前pipeline有3个datanode,有一...原创 2013-09-13 21:13:35 · 233 阅读 · 0 评论 -
cdh3集群 distcp 数据到 cdh4集群
从cdh3集群 distcp 数据到 cdh4集群上面详见: http://cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH4-Installation-Guide/cdh4ig_topic_7_2.html 注意: (1)要启个mapreduce集群,在cdh4上启动mr (2)hadoop distc...原创 2013-09-26 21:54:59 · 205 阅读 · 0 评论 -
hbase、hadoop checksum相关
support checksums in HBase block cachehttps://issues.apache.org/jira/browse/HBASE-5074 Store data and checksums together in block filehttps://issues.apache.org/jira/browse/HDFS-2699Skip che...原创 2012-07-25 21:16:58 · 377 阅读 · 0 评论 -
DFSClient 写一个Block的过程
DFSClient 写一个Block的过程 (1) 上层应用程序往输出流(FSDataOutputStream封装)写数据,底层DFSClient把数据切分成packets(典型的是64K),一个一个packet发送出去。Packet 格式: * (H is head, C is checksum data, D is payload d...原创 2012-07-12 21:39:37 · 155 阅读 · 0 评论 -
Hive 的 OutputCommitter
Hive 的 OutputCommitter public class ExecDriver extends Task<MapredWork> implements Serializable { public int execute(DriverContext driverContext) { ShimLoader.getHadoopShims...2012-01-30 19:44:22 · 337 阅读 · 0 评论 -
从HDFS API看移动计算(HDFS的设计目标和假设之一 )
已经自己的研究和一个师兄讨教后,发现HDFS提供给程序员使用的API,主要是FileSystem和DFSClient,这两个类提供了用于创建目录,创建文件,取得文件信息的方法,FileSystem是高层的一个类,DFSClient是一个底层的类,FileSystem使用了DFSClient,DFSClient可以比FileSystem相比拿到一些更详细的信息,如文件包括那些block,以及bloc...2009-03-17 11:11:51 · 498 阅读 · 0 评论 -
分布式基础学习【二】 —— 分布式计算系统(Map/Reduce)
http://www.cnblogs.com/duguguiyu/archive/2009/02/28/1400278.html#1464094 分布式基础学习【二】 —— 分布式计算系统(Map/Reduce)二. 分布式计算(Map/Reduce)分布式式计算,同样是一个宽泛的概念,在这里,它狭义的指代,按Google Map/Reduce框架所设计的分布式框架。在Hadoop中,...原创 2009-04-03 10:22:43 · 231 阅读 · 0 评论 -
hadoop RPC
Server 实现:import java.net.InetSocketAddress;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.ipc.RPC;import org.apache.hadoop.ipc.Server;import org.apache.hadoop.net.Ne...2009-11-27 20:15:27 · 110 阅读 · 0 评论 -
TF-IDF in Hadoop MapReduce使用的好文章
http://marcellodesales.wordpress.com/2009/12/31/tf-idf-in-hadoop-part-1-word-frequency-in-doc/http://marcellodesales.wordpress.com/2010/01/06/tf-idf-in-hadoop-part-2-word-counts-for-docs/http:...原创 2010-09-16 09:37:11 · 139 阅读 · 0 评论 -
(zz)Debugging Hadoop applications using your Eclipse
http://sigizmund.com/debugging-hadoop-applications-using-your-eclipse/Well, it can be annoying – it can be awfully annoying, in fact, to debug Hadoop applications. But sometimes you need it, becau...原创 2011-06-01 19:02:19 · 105 阅读 · 0 评论 -
hive 中间结果和结果数据压缩
Hadoop.The.Definitive.Guide.2nd.Edition 79页hadoop默认的压缩算法。DEFLATE org.apache.hadoop.io.compress.DefaultCodec结果数据压缩是否开启,下面的配置为true,所以开启。这个是最终的结果数据: hive.exec.compress.output true ...原创 2011-09-13 21:13:12 · 436 阅读 · 0 评论 -
SequenceFile的不足
SequenceFile 的Reader 用于读取sequencefile文件。 private Reader(FileSystem fs, Path file, int bufferSize, long start, long length, Configuration conf, boolean tempReader) throws...原创 2011-06-20 21:17:21 · 253 阅读 · 0 评论 -
hadoop debug 以及ReduceTask的部分分析
分析基于hadoop-0.19.2MapTask和ReduceTask的入口是org.apache.hadoop.mapred.Child.main(String[] args){ }传入的args举例如下://args = [127.0.0.1, 57354, attempt_201107272049_0001_m_000003_0, 497563501] //args = ...原创 2011-07-29 00:26:14 · 103 阅读 · 0 评论 -
hadoop jobId
JobClient提交作业前向JobTracker申请一个新的JobId, job_201107131247_575464JobTracker: // Allocates a new JobId string. public synchronized JobID getNewJobId() throws IOException { return new JobID(g...原创 2011-08-07 00:06:44 · 160 阅读 · 0 评论 -
Too many fetch failures
http://lucene.472066.n3.nabble.com/Reg-Too-many-fetch-failures-Error-td4037975.html http://www.slideshare.net/cloudera/hadoop-troubleshooting-101-kate-ting-cloudera http://lucene...原创 2013-10-29 10:42:51 · 232 阅读 · 0 评论