
分布式存储与计算
RicDong
这个作者很懒,什么都没留下…
展开
-
Hadoop Datanode中的Selector.select(timeout) 方法返回0
最近在使用Hadoop时,出现了严重问题,经近两个星期的折腾,最终问题可能还是JDK的bug导致。 Hadoop 原issue(https://issues.apache.org/jira/browse/HDFS-693)Sun Java bug database (http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=6403933)...原创 2009-10-19 16:15:43 · 227 阅读 · 0 评论 -
一些关于Hive的资料
这段时间忙的都没时间整理博客,这是一个不好的现象。整理了一下Hive的基础文档: FaceBook 镜像(被墙):http://mirror.facebook.com/facebook/hiveWiki 页面:http://wiki.apache.org/hadoop/Hive入门指南:http://wiki.apache.org/hadoop/Hive/GettingS...原创 2012-01-21 09:28:36 · 220 阅读 · 0 评论 -
关于MapReduce解析XML算法的一点构思
没想到Hadoop在解析XML时如此纠结,以至于新版api的mapreduce竟然放弃了XML格式的format以及reader,在老版(hadoop-0.19.*)的streaming模块提供了这样的api,由于我用的hadoop-0.20.23U1版本,因此需要把处理XML的几个类移植过来使用。 移植所带来的问题是各处依赖包,和各种api不兼容。没关系,我可以看一下源码,然后...原创 2011-12-18 10:39:44 · 210 阅读 · 0 评论 -
Hadoop FSDataset中,dfs.datanode.du.reserved 参数选项之BUG
在DN的hadoop-site.xml中配置了选项:[code="java"] dfs.datanode.du.reserved 1024[/code]这样是为了保证每个磁盘写入点能预留1K的空间来,而不是让DN将每个磁盘写入点写满,以导致M/R写local文件是发生磁盘空间不够而失败,甚至启动DN时也有可能失败(DN在启动时会初使化本地临时目录)。但是最近发现,这个配...2010-02-23 15:56:53 · 252 阅读 · 0 评论 -
HADOOP-HDFS 自动清除Trash以释放空间
HDFS should support Auto-Emptier to automatically expunge trash for releasing space.HADOOP-HDFS需要有一个Auto-Emptier 线程来自动清除trash, 以释放HDFS的总使用空间, 该功能可以配置为可选项, 可以在Configuration下增加这两个参数以供配置. 1. fs.t...原创 2010-02-09 11:12:26 · 1315 阅读 · 0 评论 -
HADOOP-HDFS DataNode变身为存储/下载服务器
Hadoop默认采用返回host的手段,给予客户端响应。在FSNamesystem端,实现了以jetty为容器的web服务,在集群中,通过HTTP可以很轻松的下载文件系统当中的某文件。不过在此,记录的不是如何下载文件,而是Hadoop未实现的几个下载功能的实现方法。 假使我们现在需要让DataNode成为我们存储系统的下载、及存储服务器。那么按照现有的Hadoop的实现,会遇到如下问题:...原创 2010-02-09 10:10:26 · 146 阅读 · 0 评论 -
Java 利用Linux Openssl 库计算文件校验码
在传统Java编程中, 我们可以另用ProcessBuilder类来创建系统进程或者Runtime类来取得JVM的接口对象运行我们指定的系统命令, 并且可以通过读入器来获取系统的out以及err输出.这里有一个简单的例子, 没有用过的同学可以参考一下. [url]http://wuhongyu.iteye.com/blog/461477[/url]由于前段时间有这样的一个需求, 尽...原创 2010-02-06 17:42:24 · 114 阅读 · 0 评论 -
hadoop 客户端(DfsClient)需要处理管道异常的情况.
hadoop客户端实例在运行较长时间后, 如中间在put文件的过程中, 出现网络异常, 比如节点和节点之间传输时的网络异常, 那么客户端(DFSClient)抛出异常, 如当中的processDatanodeError(boolean hasError, boolean isAppend)方法中的All datanode XXX are bad. Aborting异常, 当程序执行至此, cl...原创 2010-02-06 17:18:26 · 244 阅读 · 0 评论 -
Hadoop-HDFS DFSClient的严重bug
上一篇说到Shell 对自身DN造成的性能影响,本篇说一下它对DFSClient的冲击。 不知道有没有朋友像我这样病态的使用Hadoop, 我的DFSClient总是一直Running的,因为我需要它时刻为我做事,所以我不会轻意重新创建一个与NN相连的DFSClient。 闲言少述。 Shell 的执行对正在put文件的客户端会产生下列异常:1. DataStreamer Ex...2010-03-30 12:00:08 · 272 阅读 · 0 评论 -
Hadoop-HDFS 对性能造成重大影响的神秘杀手-Shell.
[i][size=medium]关于想了解HDFS的源码的朋友, 可以到蔡斌大哥那读读他的javaeye.[/size][/i]很抱歉, 我用了神秘杀手一词, 因为它实在害我太惨, 又花了好大精力才把它给拎出来。 :D 近来在测试Hadoop时, 使用NameNode身上的dfshealth.jsp 管理页面发现,DataNode在运行的过程中, Last Contact 参数时...2010-03-30 10:42:39 · 181 阅读 · 0 评论 -
[HDFS] 主控节点的双IP解决方案
需求:Master服务器有两个网卡,一个内网地址,一个外网地址。现在监听9000端口,那么其他节点可通过内网或是外网地址都可以连接到这台NameNode. 在程序中,监听0.0.0.0地址,可以使程序监听某端口上的任意IP,不过事实没有那么简单,经过反复折腾,发现windows是可以这样监听,但是Linux不行,大伙可以试试。 在linux中,在启动Namenode时,可以通过日...原创 2009-05-26 17:13:49 · 452 阅读 · 0 评论 -
[HDFS] 让Datanode成为下载/存储服务器
Hadoop默认采用返回host的手段,给予客户端响应。在FSNamesystem端,实现了以jetty为容器的web服务,在集群中,通过HTTP可以很轻松的下载文件系统当中的某文件。不过在此,记录的不是如何下载文件,而是Hadoop未实现的几个下载功能的实现方法。 假使我们现在需要让DataNode成为我们存储系统的下载、及存储服务器。那么按照现有的Hadoop的实现,会遇到如下问题:...原创 2009-05-26 11:00:26 · 160 阅读 · 0 评论 -
Hadoop的Secondary NameNode(1)
Secondary NameNodeNameNode将对文件系统的改动追加保存到本地文件系统上的一个日志文件(edits)。当一个NameNode启动时,它首先从一个映像文件(fsimage)中读取HDFS的状态,接着应用日志文件中的edits操作。然后它将新的HDFS状态写入(fsimage)中,并使用一个空的edits文件开始正常操作。因为NameNode只有在启动阶段才合并fsima...2009-11-19 21:12:10 · 122 阅读 · 0 评论