
Hadoop
sealbird
这个作者很懒,什么都没留下…
展开
-
Tutorial Introduction
1、学习到hdfs怎样存储巨大的数据,怎样配置hdfs,怎样使用hdfs存储和检索数据2、给你展示怎样开始一个hadoop环境以做试验3、介绍hadoop mapreduce 编程模型, 怎样写 几个 Mapreduce 程 序4、详述关于具体的hadoop mapreduce,并且怎样使用高级特性来增强程序的可执行性5、描述了一些hadoop系统的一些组件,那些组件能对你的系统增加更多的威力6原创 2009-03-03 10:35:00 · 477 阅读 · 0 评论 -
hadoop初步使用笔记
%SystemRoot%\system32;%SystemRoot%;%SystemRoot%\System32\Wbem;%SYSTEMROOT%\System32\WindowsPowerShell\v1.0\;D:\Program Files\Microsoft SQL Server\90\Tools\binn\;D:\Java\jdk1.6.0\bin;K:\cygwinnew\bin;D...原创 2012-01-05 17:22:27 · 137 阅读 · 0 评论 -
windows hadoop 调试环境
eclipse 3.3 hadoop 0.20.2 中的hadoop-0.20.2-eclipse-plugin.jar原创 2011-12-31 13:45:43 · 97 阅读 · 0 评论 -
hadoop job提交完成的整个过程介绍 zz
2009-11-17 11:16http://blog.chinaunix.net/u3/94300/showart_1902760.html 由于大量的使用interface,reflection,rpc proxy,所以当我们提交job给hadoop的时候,他到底是如何一步步运行的确实不太容易看明白,今天费了将近一天的功夫终于将其大概整理了出俩,为以后继续深入仔细阅读源码打下基础。 ...原创 2011-12-30 16:52:55 · 179 阅读 · 0 评论 -
Hadoop中常出现的错误以及解决方法zz
[quote]2009-11-18 15:421:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out Answer: 程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。 修改办法: 修改2个文件。 /etc/se...原创 2011-12-30 16:52:09 · 107 阅读 · 0 评论 -
分布式 Lucene
http://www.hadooper.cn/dct/page/65785原创 2011-12-27 13:54:49 · 179 阅读 · 0 评论 -
hadoop 0.20.1在 windows下编译
必备条件 1\ant 2\cygwin 3\在eclipse 配置成ant 编译 注意,注释掉原创 2010-11-12 09:18:16 · 76 阅读 · 0 评论 -
使用Eclipse3.4编译部署Hadoop/Hbase工程时需要修正的BUG(转)
[quote]Posted in Java, FreeBSD/Unix服务器 at 22:06 Author:仲远 浏览量: 3,903 标签:eclipse, Freebsd/Unix服务器, Hadoop, hbase, Java, 云计算 最近我们在通过使用Eclipse3.4版来开发部署Hadoop的工程以及Hbase的工程。不过首要条件是需要先将Hadoop在本地部署起来。在...原创 2011-06-09 19:52:11 · 104 阅读 · 0 评论 -
Avro总结(RPC/序列化)
Avro(读音类似于[ævrə])是Hadoop的一个子项目,由Hadoop的创始人Doug Cutting(也是Lucene,Nutch等项目的创始人,膜拜)牵头开发,当前最新版本1.3.3。Avro是一个数据序列化系统,设计用于支持大批量数据交换的应用。它的主要特点有:支持二进制序列化方式,可以便捷,快速地处理大量数据;动态语言友好,Avro提供的机制使动态语言可以方便地处理Avro数据。...原创 2010-10-20 17:04:45 · 110 阅读 · 0 评论 -
通过Hadoop做分布式索引
数据库里面有千万级的数据需要做索引,开始的方案是起线程,然后每次读取一定的数量,索引,然后继续读。一开始上了四台普通的PC,1.8的CPU,1G的内存,做了10个多小时才索引完。后来换了Hadoop,同样的四台机器,只要20分钟就完成了。当然不是直接上hadoop就能提速那么多,还是需要做很多地方的调整的。第一个,先把数据库记录dump出来成为文本文件,然后放到hdfs里面,这样做的转载 2009-03-02 10:36:00 · 1431 阅读 · 1 评论 -
hadoop 索引相关记录
hadoop 分布式索引升级包 https://issues.apache.org/jira/browse/MAPREDUCE-1722 http://lucene.472066.n3.nabble.com/Hadoop-Index-Contrib-td732764.html http://lucene.472066.n3.nabble.com/Hadoop-Index-Contrib-td...原创 2012-01-10 17:21:08 · 127 阅读 · 0 评论